2011-11-08 11 views
1

私はある言語のコーパスを取得しようとしています。しかし、私がウェブページを取得したら、どのようにして言語を決定できますか? Chromeはこれを実行できますが、原則は何ですか?Chromeのようにウェブページの言語を特定するにはどうすればよいですか?

文字セット、IPアドレス、HTMLタグなどに基づいて推測された推測のような特別な方法を思いつくことができます。

+0

可能な重複、または少なくとも同じ質問に対する良い回答:http://stackoverflow.com/questions/1464362/detect-language-of-text基本的には、これを行うためのツールがたくさんありますあなたの特定のニーズに適したライブラリを選んで使用してください。関連するかもしれない1つの質問、コーパスを求めている言語は何ですか?特定の言語や言語のファミリでは、他のツールよりも優れているツールもあります。 – Ian

答えて

0

一般的な方法は、文字の頻度、共通の文字の並びや単語、文字セット(あなたが説明したようなもの)などを見ていると思います...さまざまな方法があります。簡単なのは、さまざまな言語の辞書ファイルを集めて、ページから最も多くのヒットを得たものをテストし、次の3つを選択肢として提供することです。

+0

あなたはとても助力しています。ありがとう、私はあなたの提案に従ってそれを行うでしょう。 –

+1

"n-gram解析"は、一般にこれに使用される手法です。 – Ian

0

異なる言語のコーパスを収集することに興味がある場合は、国別のページを参照できます。たとえば、<website>.esはスペイン語で、<website>.deはドイツ語である可能性があります。

また、Wikipediaは多くの言語に翻訳されています。特定の言語のスクレーパーを書くのは難しくありません。

関連する問題