Google Analytics 訪問者の言語「ja」と「ja-jp」

Access Reporter(TM) は英語版もありますので、世界各国からのアクセスがあり、Google Analytics のレポートで言語別のデータも確認しています。
言語別のレポートの中で日本であることは何となくわかるものの、「ja」と「ja-jp」の 2 つがあるのを見たことはありませんか?何故 2 つに分かれているのでしょうか?

他にも「en」と「en-us」なども見かけることがありますが、これらは、ロケールID(LCID:LoCale IDentifiers)と呼ばれるもので、言語と国を示す記号です。『言語-国』という形式になっています。
英語などは様々な国で使われており、国毎に同じ英語でも結構違いがあります(余談ですが、翻訳においては単なる日英翻訳といった場合でも、イギリス英語なのかアメリカ英語なのかは確実に分けます)ので、単に言語だけではなく国の情報も付けるわけです。
日本語はほとんど日本でしか使われていないので、他の例にならい「ja(Japanese)-jp(Japan)」と記述します。「ja」としかないものは、国が分からなかったことを示しています。海外在住の日本人とかの可能性もゼロではありませんがそうとも言い切れません。

さて、このロケール変数ですが、国のバリエーションが最も多い言語は何だと思いますか?英語?いえいえ。正解は、スペイン語です。「es-○○」のバリエーションは全部で 19 種類あります。
じゃあ、さすがに 2 位は英語でしょ!と思うかもしれませんが、英語は 3 位です。2 位はアラビア語で、国バリエーションは 16 種類あります。
尚、ロケールID 自体は言語および国の網羅性があるわけではないので、あくまでもインターネット上で、アクセスしてきている方の国と言語を区分したものという程度に理解してください。