2010-12-17 13 views
5

現在、NLTKを使用した一般的なPOSタガーを構築しようとしています。私は茶色と木造のコーパスを訓練のために手伝ったことがあるが、おそらくツリーバンクのコーパスに定住するだろう。MEGAMをNLTK ClassifierBasedPOSTaggerとして使用しようとしていますか?

私が行ったことを学ぶと、私は分類器のPOSタグを見つけることが最も正確です。 Maximum Entityクラシファイアは最も正確であることが意図されていますが、学習データセットを大幅に削減しなければならないほどのメモリ(および処理時間)を使用していることがわかります。

私はMEGAMを使用することが推奨されています。 NLTKはMEGAMをサポートしていますが、私が見つけたすべての例は、より具体的なPOSタグャーではなく、一般的な分類子(たとえば、単語機能のベクトルを使用するテキスト分類器)です。私自身のPOS機能抽出ツールとコンパイラを再作成しなくても(つまり、すでにNLTKにあるものを使用することを好む)、MEGAM MaxEntクラシファイアをどのように使用できますか?つまり私はのラインに沿っているいくつかの既存のMAXENTのコードでそれをドロップすることができる方法:

maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences, 
             classifier_builder=MaxentClassifier.train) 
+3

あなたは読んでいますか:http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part-1/? 4つの記事すべてを見ると、一般的なPOSタグをよく見ています。 – perimosocordiae

+1

はい、私は彼の本を持っています。ブログにはいくつか興味深い効率の比較がありますが、私はまだ分類子の最後にBrillタグを追加しているかもしれません(推奨)。投稿はMEGAMは言及していないようですか?おそらく私はMEGAMを使うためにNLTK MaxEntコードとリバースエンジニアを見るか、それを複製する必要があります。 – winwaed

答えて

8

この1つのライナーはClassifierBasedPOSTaggerためMEGAM MaxentClassifierを訓練のために働く必要があります。もちろん、それは(ダウンロードするにはhereを行く)MEGAMがすでにインストールされている将来のユーザーの場合

maxent_tagger = ClassifierBasedPOSTagger(train=train_sents, classifier_builder=lambda train_feats: MaxentClassifier.train(train_feats, algorithm='megam', max_iter=10, min_lldelta=0.1)) 
+3

https://github.com/japerk/nltk-trainerのtrain_tagger.pyもチェックしてください。いつかすぐに私はイントロ記事を書くだろうが、うまくいけばヘルプメッセージはあなたを始めるのに十分である。 – Jacob

+0

ありがとうJacob - それは働くように見えます! (Python Lambda関数について私に思い出させる必要があるように見えます)。はい、私はMegamをインストールしていましたが、私の問題はPOSタギングクラシファイアにフックされた(ジェネリック)クラシファイアを取得することでした。これまでのテストではNaive Bayesと非常によく似た精度が得られています(約1%以内)。クラシファイアの作成には時間がかかりますが、デフォルトのMaxEntアルゴリズムほど長くはありません。私はtrain_tagger.pyを出しました。コーヒーブレイクの間にそれを調べます: – winwaed

+1

より高い精度を達成するために、max_iterを増やしたり、min_ldldを減らしたりすることができます。これらは、私が通常使用する数字です。 – Jacob

2

を前提としています

MegamはMACで利用できるようになりました:

$brew tap homebrew/science 
$brew install megam 

あなたはXQuartzを持っていけない場合最初にそれを得るように求めるかもしれません。ここに直接ダウンロードリンクがあります: http://xquartz.macosforge.org/downloads/SL/XQuartz-2.7.5_rc4.dmg

関連する問題