現在、NLTKを使用した一般的なPOSタガーを構築しようとしています。私は茶色と木造のコーパスを訓練のために手伝ったことがあるが、おそらくツリーバンクのコーパスに定住するだろう。MEGAMをNLTK ClassifierBasedPOSTaggerとして使用しようとしていますか?
私が行ったことを学ぶと、私は分類器のPOSタグを見つけることが最も正確です。 Maximum Entityクラシファイアは最も正確であることが意図されていますが、学習データセットを大幅に削減しなければならないほどのメモリ(および処理時間)を使用していることがわかります。
私はMEGAMを使用することが推奨されています。 NLTKはMEGAMをサポートしていますが、私が見つけたすべての例は、より具体的なPOSタグャーではなく、一般的な分類子(たとえば、単語機能のベクトルを使用するテキスト分類器)です。私自身のPOS機能抽出ツールとコンパイラを再作成しなくても(つまり、すでにNLTKにあるものを使用することを好む)、MEGAM MaxEntクラシファイアをどのように使用できますか?つまり私はのラインに沿っているいくつかの既存のMAXENTのコードでそれをドロップすることができる方法:
maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences,
classifier_builder=MaxentClassifier.train)
あなたは読んでいますか:http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part-1/? 4つの記事すべてを見ると、一般的なPOSタグをよく見ています。 – perimosocordiae
はい、私は彼の本を持っています。ブログにはいくつか興味深い効率の比較がありますが、私はまだ分類子の最後にBrillタグを追加しているかもしれません(推奨)。投稿はMEGAMは言及していないようですか?おそらく私はMEGAMを使うためにNLTK MaxEntコードとリバースエンジニアを見るか、それを複製する必要があります。 – winwaed