2016-06-13 17 views
0

コーパスの可能なすべてのn項(コーパスは大きくない、ローカルマシンで処理できる)のためにTF/IDFを計算する必要があり、Python 2.7を使用して、直接使用しますか?ありがとう。TF/IDF in Python

に関して、 林

+1

[gensim](https://radimrehurek.com/gensim/) –

+0

m9_psy @、感謝を試してみてアップ投票。このAPI(https://radimrehurek.com/gensim/models/tfidfmodel.html)の使用を意味しますか? gensimが必要とするかどうかわからない事前に辞書を持っている、私の要求は辞書がない、すべての可能なn項についてTF/IDFを計算する必要があるだけです。あなたのアドバイスは高く評価されます。 :) –

+1

いいえ、あなたは辞書を必要としません - それはプロセスで構築されます。フレーズ(nグラム)を検出するには、別のモジュールがあります。https://radimrehurek.com/gensim/models/phrases.html –

答えて

1

scikit-学ぶこの問題を解決します。

http://scikit-learn.org/stable/modules/feature_extraction.html

+0

ありがとうuser3358074、あなたの返事に投票し、あなたがscikitから指摘した参照を使用すると思います、私は事前に辞書を持っている必要がありますか?私の要件は、私は辞書を持っていない、私はすべての可能なnの用語のTF/IDFを計算する必要があります。あなたのアドバイスは高く評価されます。 :) –

+1

これはおそらくあなたのコーパスを必要とし、残りはここのようです:http://stackoverflow.com/questions/23792781/tf-idf-feature-weights-using-sklearn-feature-extraction-text-tfidfvectorizer – dmitryro

+0

ありがとうドミトリーロ、あなたの返事に投票してください。私の理解が正しいことを確かめるために、(1) 'コーパス 'の場合は、単語辞書ファイル以外のnグラムのTF/IDFを生成したい場所にある生の文書/ファイルを意味しますか? (2)scikit-learnが中国語や日本語のようなUnicodeのために働くかどうか知っていますか? –