2016-11-30 15 views
0

次のコードでは、nltkはなぜ「選択」が動詞ではなく形容詞だと思うのですか?POSタグ付け - NLTKは名詞が動詞だと思う

>>> import nltk 
>>> t = nltk.tokenize.word_tokenize("select icon from icon") 
>>> nltk.tag.pos_tag(t) 
[('select', 'JJ'), ('icon', 'NN'), ('from', 'IN'), ('icon', 'NN')] 
+0

まあ、あいまいです。 – Max

答えて

1

私は(私はそれがペンツリーバンクhereにバックオフトライグラムマルコフモデルで訓練されています)タガーは、統計モデルを用いて訓練されているため、簡単な答えは、ありませんね。

私は、トレーニングコーパスでは非常にまれな出来事であることを想像することができました(まったく発生した場合)ので、最初の単語を見て、新しい最も可能性の高いタグとしてJJが割り当てられています。

これは大きな問題ですが、このような文章が多く出現しているコーパスで自分のタガーを練習するか、thisなどを使用して古いものを豊かにすることを検討できます。

関連する問題