2017-09-04 6 views
1

私は、テキストマイニングの問題のためにベクトル化ツールを構築しようとしています。使用されている語彙は、指定されたファイルから適合させる必要があります。ただし、辞書vocabulary_を構築するファイルの数は比較的多い(たとえば10^5)。それを並列化する簡単な方法はありますか?sklearn feature_extraction fit parallelization

アップデート:私が見つけたように、「取扱説明書」の方法は...残念ながら、それだけで私は模範的な私は2つのコアのために何をすべきかを説明しましょうmin_df=1のために働くあり: は、2つのチャンクにあなたの入力を分割。 1つのコアとデータの1つのチャンク(それぞれを使用)にveik1とvec2をトレインベクタライザーと呼んでください。次に、

# Use sets to dedupe token 
vocab = set(vec1.vocabulary_) | set(vec2.vocabulary_) 
# Create final vectorizer with given vocabulary 
final_vec = CountVectorizer(vocabulary=vocab) 
# Create the dictionary final_vec.vocabulary_ 
final_vec._validate_vocabulary() 

となります。

答えて