2016-10-06 14 views
2

私は、マレットシンプルタグャー(http://mallet.cs.umass.edu/sequences.php)を使用してPOSタグ付けのCRFモデルを学習しようとしています。マレットPOSタグ付け学習時間

私のコンピュータがこの1つのモデルのために1週間以上学習しているので、今は心配し始めます。

... 
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN 
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN 
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN 
... 

は、だから私はマレットが、これは長い時間がかかるために、あるいは何かがうまくいかなかったため、通常であれば、お願いしたいと思った: 敷居の形で私に出力を与えるとして、ハングアップしていないように見えますか?

私は、ウェブページ上の指定されたコマンドを使用:

[email protected]:~/tagger-test$ java -cp 
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar" 
cc.mallet.fst.SimpleTagger 
--train true --model-file nouncrf sample 

トレーニングデータは96903個のトークンが含まれています。

編集:
我々が想定している、それは入力の形式とは何かを持っているかもしれません。各インスタンスは空白行で区切られた別々のブロック、であることを述べて

Bill CAPITALIZED noun 
slept non-noun 
here LOWERCASE STOPWORD non-noun 

そしてSimpleTagger(http://mallet.cs.umass.edu/api/)のドキュメント:ウェブサイトの形式を指定します。インスタンスの意味がわからないのですが、予想されるフォームは次のようなものです:

word pos 
word pos 
. $. 

word pos 
word pos 
word pos 
. $. 

word pos 
word pos  
. $. 

... 

これは正しいフォーマットですか?誰かがサンプルファイルを持っていて、フォーマットがどのように見えるかを表示していますか?

答えて

1

100kトークンコーパスの週は非常に長いようです。私はたいてい半時間のオーダーを期待しています。

関連する問題