URLを指定すると、ウェブサイトのページで使用される自然言語を自動的に判断する方法を探しています。 PythonでURLを指定してウェブサイトのページの自然言語を自動的に決定
、関数のよう:言語指定子を返し
def LanguageUsed (url):
#stuff
(英語用例 'en' と、日本は 'JP'、等...)結果の
概要: code from the PyPi for oice.langdetを使用してPythonで作業する合理的な解決策があります。 私は現時点で私が必要としていることは、英語と英語以外を区別するうえでまともな仕事です。 Pythonのurllibを使ってhtmlを取得しなければならないことに注意してください。また、oice.langdetはGPLライセンスです。
PythonでTrigramsを使用するより一般的な解決方法については、他の人が示唆しているように、Python Cookbook Recipe from ActiveStateを参照してください。
Google Natural Language Detection APIは非常にうまく機能します(これまで見たことがない限り)。しかし、それはJavascriptであり、TOSはその使用を自動化することを禁じています。
... http://www.mnogosearch.org/guesser/用のPythonラッパーを作成する場合は困難であろうか。世界には複数の言語が共存する場所がたくさんあります。また、ウェブサイトに複数の言語が含まれている可能性もあります。 –
私は、TLDよりも優れていると言いました。 – tghw