2013-04-18 12 views
5

私はスタンフォードPOSタガーを使用していますが、モデルパラメータを変更しても英語が正しくタグ付けされていますが、(簡体字)中国語を認識していないようです。私は何か見落としたことがありますか?スタンフォードPOSタガーが中国語のテキストをタギングしない

私がダウンロードされ、ここから最新のフルバージョンを展開しました:「サンプルINPUT.TXT」に http://nlp.stanford.edu/software/tagger.shtml

その後、私はinputedてきたサンプルテキストを。

这是一个测试的句子。这是另一个句子。

は、それから私は、単に

./stanford-postagger.shモデル/中国distsim.taggerサンプルを実行します-put.txt

予想される出力は、各単語に品詞を付けることですが、その代わりに文字列全体を1つの単語として認識します:

モデル/中国distsim.taggerからタガーモデル/中国distsim.tagger

読書POSタガーモデルから

ロードデフォルトのプロパティを...完了しました[3.5秒]。

這是一個測試的句子。這是另一個句子。#NR毎秒30.30言葉で

タグ1つのワード。

何か助けていただきありがとうございます。

+0

また、ファイルと設定がUTF-8であることを確認しました。私はまた、さまざまなサンプルテキストで試してみました。 –

答えて

6

最後に、トークン化/セグメント化がこのposタグャーに含まれていないことを認識しました。言葉はスペースを区切られたものでなければなりません。

http://nlp.stanford.edu/software/segmenter.shtml

みんなありがとう:中国の最大エントロピー単語分割に興味のある方は、こちらを利用できる別のパッケージがあります。

+2

はい、POSタガーに渡す前にセグメンタに渡す必要があります。 – alvas

関連する問題