1
私は、テキストマイニングの問題のためにベクトル化ツールを構築しようとしています。使用されている語彙は、指定されたファイルから適合させる必要があります。ただし、辞書vocabulary_
を構築するファイルの数は比較的多い(たとえば10^5)。それを並列化する簡単な方法はありますか?sklearn feature_extraction fit parallelization
アップデート:私が見つけたように、「取扱説明書」の方法は...残念ながら、それだけで私は模範的な私は2つのコアのために何をすべきかを説明しましょうmin_df=1
のために働くあり: は、2つのチャンクにあなたの入力を分割。 1つのコアとデータの1つのチャンク(それぞれを使用)にveik1とvec2をトレインベクタライザーと呼んでください。次に、
# Use sets to dedupe token
vocab = set(vec1.vocabulary_) | set(vec2.vocabulary_)
# Create final vectorizer with given vocabulary
final_vec = CountVectorizer(vocabulary=vocab)
# Create the dictionary final_vec.vocabulary_
final_vec._validate_vocabulary()
となります。