2017-11-05 11 views
0

私はテキストを扱おうとしていますが、そこにはたくさんの繰り返しがあります。 SKLearnからtf-idfベクトル化を使用しました。パラメータはmax_df=0.5です。つまり、単語が入力の50%以上に存在する場合は、それを使用しません。私は、一般的なPythonやDoc2VecやNLTKにも同様の機能があるかどうかを知りたいと思います。それらをベクトル化せずに、データセットの50%以上に存在する単語を削除したいと思います。データセットから最も頻繁な単語を削除します

0 | This is new: A puppy ate cheese! See? 
1 | This is new: A cat was found. See? 
2 | This is new: Problems arise. See? 

このような出力::私はすでにデ総額とストップワードの除去を行ってきた

0 | puppy ate cheese 
1 | cat was found 
2 | problems arise 

例えば、私は次のようにデータフレームからしたいのですが今、私はちょうど最も頻繁な言葉を削除したいと思います。新しい情報が入ってくるので、この情報を保存したいと思います。私は元のコーパスで頻繁に使用されているのと同じ頻繁な単語を新しい入力から削除したいと思います。

答えて

1

あなたは前処理で

mostCommon= allWordDist.most_common(10).keys() 

続い

import nltk 
allWords = nltk.tokenize.word_tokenize(text) 
allWordDist = nltk.FreqDist(w.lower() for w in allWords) 

ができますか?あなたは

allWordDist .items() 

に見れば

私はあなたが必要なすべてを見つけることになると思います。

関連する問題