2017-03-01 7 views
0

CoreNLP ColumnDataClassifierを使用して多数の文書を分類しようとしています。私は約20000のラベルを持つ100万件を超える文書を持っています。CoreNLP ColumnDataClassifierを使用して大きなコーパスで文書を分類する

これはメモリ要件の点でも可能ですか? (私は現在16GBしか持っていません)

入力を複数の小さなファイルに分割して反復的に訓練することはどういうわけかできますか?私が走った実験として

答えて

0

1.) 500,000 documents, each with 100 random words 
2.) a label set of 10,000 

は、これは私がそれをRAMの40ギガバイトを与えた場合でも、メモリエラーでクラッシュしました。私も走った

1.) same 500,000 documents 
2.) a label set of 6 

これは、16 GBのRAMで完全に正常に実行されました。

ラベルセットを増やすと、クラッシュする可能性はあるのか分かりませんが、可能性のあるラベルセットと実験を縮小することをお勧めします。

+0

ありがとうございました!私は実験を開始する:) – cookiedealer

関連する問題