2016-12-08 10 views
0

opennlpでドキュメント分類子を処理しようとしています。しかし、私は訓練ファイルに苦労しています。ドキュメント分類のためのトレーニングファイルを解析中にOpenNLPエラーが発生しました

Indexing events using cutoff of 5 

    Computing event counts... done. 17 events 
    Indexing... Dropped event greetings:[bow=hello] 
Dropped event greetings:[bow=hi] 
Dropped event greetings:[bow=salam] 
Dropped event internet_problem:[bow=internet] 
Dropped event internet_problem:[bow=no, bow=data] 
Dropped event internet_problem:[bow=data, bow=not, bow=working] 
Dropped event internet_problem:[bow=not, bow=able, bow=to, bow=open, bow=website] 
Dropped event internet_problem:[bow=browsing, bow=issue] 
Dropped event balance_problem:[bow=balance] 
Dropped event balance_problem:[bow=usage] 
Dropped event balance_problem:[bow=bill, bow=amount] 
Dropped event balance_problem:[bow=billed] 
Dropped event voice_problem:[bow=signals] 
Dropped event voice_problem:[bow=call] 
Dropped event voice_problem:[bow=voice] 
Dropped event voice_problem:[bow=call, bow=drop] 
Dropped event voice_problem:[bow=not, bow=connecting] 
done. 
Sorting and merging events... Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 0, Size: 0 
    at java.util.ArrayList.rangeCheck(ArrayList.java:653) 
    at java.util.ArrayList.get(ArrayList.java:429) 
    at opennlp.tools.ml.model.AbstractDataIndexer.sortAndMerge(AbstractDataIndexer.java:89) 
    at opennlp.tools.ml.model.TwoPassDataIndexer.<init>(TwoPassDataIndexer.java:105) 
    at opennlp.tools.ml.AbstractEventTrainer.getDataIndexer(AbstractEventTrainer.java:74) 
    at opennlp.tools.ml.AbstractEventTrainer.train(AbstractEventTrainer.java:91) 
    at opennlp.tools.ml.model.TrainUtil.train(TrainUtil.java:53) 
    at opennlp.tools.doccat.DocumentCategorizerME.train(DocumentCategorizerME.java:204) 
    at com.nlp.CategoryTrainUtil.trainModel(CategoryTrainUtil.java:39) 
    at com.nlp.Boot.main(Boot.java:12) 

のように私のトレーニングファイルを検索します:私は、私が見逃しているかもしれないものになっていないです

greetings hello 
greetings hi 
greetings salam 
internet_problem internet 
internet_problem no data 
internet_problem data not working 
internet_problem not able to open website 
internet_problem browsing issue 
balance_problem balance 
balance_problem usage 
balance_problem bill amount 
balance_problem billed 
voice_problem signals 
voice_problem call 
voice_problem voice 
voice_problem call drop 
voice_problem not connecting 

opennlpがファイルを読んでいる間、私は、次のエラーを取得しています。

答えて

1

最初の行はIndexing events using cutoff of 5

は、おそらくあなたが分類のために5例の各の最小値を与える必要があることを意味すると言います。したがって、greetingの2つの例と、トレーニングデータに5がない場合は、他の例を2つ挙げてください。

また、十分なトレーニングデータがない場合は、カットオフを3に減らすこともできますが、これは良い結果をもたらすものではありません。

希望すると便利です。

関連する問題