2009-11-25 25 views
10

NLTKに特定の言語のテキストを扱うように指示するにはどうすればよいですか?NLTK/pyNLTKでは「言語ごとに」(英語以外の言語でも)作業できます

しばらくして、英語以外の(ただしヒンズー語のヨーロッパ語の)テキストドメインにPOSタギング、トークン化などを行う特殊なNLPルーチンを作成します。

この質問は、コード/設定変更、唯一異なるコーパスに対処するためではないようだ。 POS tagging in German

また、Python用の任意の特殊なヘブライ語/スペイン語/ポーランドNLPモジュールがあるのですか?

答えて

8

コード/設定の変更として何を参照しているのかわかりません。 NLTKは主に機械学習に依存し、「設定」は通常トレーニングデータから抽出されます。

POSタギングの場合、結果とタグ付けは、使用する/使用しているタガーに依存します。自分でトレーニングする必要がありますが、もちろん、スペイン語/磨きのトレーニングデータが必要です。これらが見つけにくい理由は、公開されている金標準物質の欠如です。そこにはこれを行うツールがありますが、これはPython用ではありません(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)。

nltk.tokenize.punkt.PunktSentenceTokenizerトークナイザは、多言語の文章の境界に応じて、このペーパー(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485)で詳細を示すトークンをトークン化します。

+0

ありがとうございました。 punkt文トークナイザは正しい方向に見えます。 –

+0

treetaggerはどのように機能するのですか? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas

関連する問題