sklearn feature_extraction fit parallelization

私は、テキストマイニングの問題のためにベクトル化ツールを構築しようとしています。使用されている語彙は、指定されたファイルから適合させる必要があります。ただし、辞書vocabulary_を構築するファイルの数は比較的多い（たとえば10^5）。それを並列化する簡単な方法はありますか？sklearn feature_extraction fit parallelization

アップデート：私が見つけたように、「取扱説明書」の方法は...残念ながら、それだけで私は模範的な私は2つのコアのために何をすべきかを説明しましょうmin_df=1のために働くあり：は、2つのチャンクにあなたの入力を分割。 1つのコアとデータの1つのチャンク（それぞれを使用）にveik1とvec2をトレインベクタライザーと呼んでください。次に、

# Use sets to dedupe token vocab = set(vec1.vocabulary_) | set(vec2.vocabulary_) # Create final vectorizer with given vocabulary final_vec = CountVectorizer(vocabulary=vocab) # Create the dictionary final_vec.vocabulary_ final_vec._validate_vocabulary()

となります。

出典

2017-09-04 month

sklearn feature_extraction fit parallelization

答えて

関連する問題