TF/IDF in Python

コーパスの可能なすべてのn項（コーパスは大きくない、ローカルマシンで処理できる）のためにTF/IDFを計算する必要があり、Python 2.7を使用して、直接使用しますか？ありがとう。TF/IDF in Python

に関して、林

2016-06-13 Lin Ma

[gensim]（https://radimrehurek.com/gensim/） –

m9_psy @、感謝を試してみてアップ投票。このAPI（https://radimrehurek.com/gensim/models/tfidfmodel.html）の使用を意味しますか？ gensimが必要とするかどうかわからない事前に辞書を持っている、私の要求は辞書がない、すべての可能なn項についてTF/IDFを計算する必要があるだけです。あなたのアドバイスは高く評価されます。 :) –

いいえ、あなたは辞書を必要としません - それはプロセスで構築されます。フレーズ（nグラム）を検出するには、別のモジュールがあります。https://radimrehurek.com/gensim/models/phrases.html –

scikit-学ぶこの問題を解決します。

http://scikit-learn.org/stable/modules/feature_extraction.html

出典

2016-06-13 00:29:25 dmitryro

ありがとうuser3358074、あなたの返事に投票し、あなたがscikitから指摘した参照を使用すると思います、私は事前に辞書を持っている必要がありますか？私の要件は、私は辞書を持っていない、私はすべての可能なnの用語のTF/IDFを計算する必要があります。あなたのアドバイスは高く評価されます。 :) –

これはおそらくあなたのコーパスを必要とし、残りはここのようです：http://stackoverflow.com/questions/23792781/tf-idf-feature-weights-using-sklearn-feature-extraction-text-tfidfvectorizer – dmitryro

ありがとうドミトリーロ、あなたの返事に投票してください。私の理解が正しいことを確かめるために、（1） 'コーパス 'の場合は、単語辞書ファイル以外のnグラムのTF/IDFを生成したい場所にある生の文書/ファイルを意味しますか？（2）scikit-learnが中国語や日本語のようなUnicodeのために働くかどうか知っていますか？ –

答えて

関連する問題