2
私は、マレットシンプルタグャー(http://mallet.cs.umass.edu/sequences.php)を使用してPOSタグ付けのCRFモデルを学習しようとしています。マレットPOSタグ付け学習時間
私のコンピュータがこの1つのモデルのために1週間以上学習しているので、今は心配し始めます。
...
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN
...
は、だから私はマレットが、これは長い時間がかかるために、あるいは何かがうまくいかなかったため、通常であれば、お願いしたいと思った: 敷居の形で私に出力を与えるとして、ハングアップしていないように見えますか?
私は、ウェブページ上の指定されたコマンドを使用:
[email protected]:~/tagger-test$ java -cp
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar"
cc.mallet.fst.SimpleTagger
--train true --model-file nouncrf sample
トレーニングデータは96903個のトークンが含まれています。
編集:
我々が想定している、それは入力の形式とは何かを持っているかもしれません。各インスタンスは空白行で区切られた別々のブロック、であることを述べて
Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun
そしてSimpleTagger(http://mallet.cs.umass.edu/api/)のドキュメント:ウェブサイトの形式を指定します。インスタンスの意味がわからないのですが、予想されるフォームは次のようなものです:
word pos
word pos
. $.
word pos
word pos
word pos
. $.
word pos
word pos
. $.
...
これは正しいフォーマットですか?誰かがサンプルファイルを持っていて、フォーマットがどのように見えるかを表示していますか?