2016-04-25 14 views
2

Webページ言語の検出に取り組んでおり、私が開発した他のミドルウェアを介してページのコンテンツを取得することができました。コンテンツの場所が標準化されていないためです。しかし、langとxml:langタグを使用しようとした言語を検出する方法はわかりませんが、一部のWebサイトではタグで指定されている言語以外の言語が使用されているのを見ているので、効率的ではありません助けていただければ幸いですか? (環境javaの日食)Webページコンテンツに基づく言語検出

答えて

1

これはnlpの古典的な問題であり、かなり良い予測を与えます。この記事はこれに似ています:linkと良い回答があります。 私はそこに記載されている解決策に精通していませんが、Apache Tikaを別の問題で使用しました。これは素晴らしいオープンソースです。希望を助ける..

+0

私はjavaで作業していますが、すでにリンクを確認していますが、彼らが参照したライブラリ(具体的には言語検出器)は正確さの問題を抱えています。 –

関連する問題