2016-07-10 2 views
1

言語コードと対応する言語の言語名のファイルを探しています。リストがネイティブスピーカーの数でソートされていれば素晴らしいでしょう。ネイティブスピーカーの数でいいISO言語タグリストを探しています

私は、あなたが望む事は容易に利用可能である場合、私は知りません以下のリストのようなものが好きですが、どんどん

{ "cmn" : ["Chinese", "官话"], 
"es" :["Spanish", "español"], 
"en": ["English", "English"], 
... 
"ru": ["Russian", "Русский"] } 
+0

リストの最初の項目に関しては軽微です。汉语または中文)。中国人は彼らの言葉を话话と呼んでいないが、彼らは普通の話が何であるかを知っている。 –

+0

あなたは何を使い終わったのですか? –

答えて

1

をダウンロードします。最大の言語から徐々に小さな言語に移行する必要があります。

質問はいくつかの困難を提起:6000-7000世界の言語、すべてではないが、それらの言語タグを持っているがあります

  • スピーカーの数の見積もりは、常にいくらか日付が付けられていますが、一部の見積もりは他のものよりも古いものがあります。言語タグのリストを作成するためにWikipediaに相談しながら、推定値は1990年代と2010年の間のものでした。その数字は完全には比較できません。
  • 小規模な言語と正式なステータスのない言語の見積もりは、しばしば非常に粗く、時には存在しない場合もあります。
  • 一部の言語タグは、特にISO 639-3で、包括的コードです。つまり、個々の言語の代わりに言語グループ(中国語など)を識別します。
  • 一部の言語では、異なる国で使用されている亜種を区別することが有用な場合があります。オランダのベルギーオランダ語やオランダ語の音声合成を区別したい場合に使用します。あなたが最初に必要なもの

biggest languagesがすべてそこに表現されているので、ISO 639-1言語タグ(2文字コード)のリストだけです。小さなものについては、最終的にISO 639-3 tags(3文字コード)が必要になります。 IETF BCP 47は、特定の言語で使用できる最短のコードを使用することを推奨しています。 (あなたの例では、中国語の 'cmn'はどのように具体的になりたいかによって 'zh'、 'zh-CN'、 'zh-TW'などに置き換えられます)

とにかく私は今、私のGitHubリポジトリの1つに400以上の言語を持つJSONファイルを持っています。 http://cstrobbe.github.io/languagelearning/misc/languagetags.jsonを参照してください。

PS:ISO 639-1タグのJSONリストについては アルファベット順に、languages.js on GitHubを参照してください。これらのタグは、対応する言語のネイティブスピーカーの数で注文されません。 (ISO 639-3でカバーされている多くの言語はISO 639-1にはありません)

関連する問題