2016-06-20 6 views
0

を使用してnグラムの用語のそれぞれの周波数を取得します。条項?私は次のメソッドを使用して、パンダのデータフレームからngramsを抽出していますsklearn

+1

を取得するために使用されるコードを投稿。たとえば、{"word1":0、 "word2":1}のようになります。必要なfreqは、変数X_train_countsの非ゼロ項によって与えられます。つまり、最初の列の値が2の場合、つまり「word1」が2回発生します。これは役に立ちますか? – geompalik

+0

@geompalik入手!助けになる..!!ありがとう!! – Bonson

答えて

0

私はあなたが用語や機能の指標との間のマッピングを持って定義された単語変数でカウント

train_data_features = X_train_counts.toarray() 
vocab = vect.get_feature_names() 
dist = np.sum(train_data_features, axis=0) 
ngram_freq = {} 

# For each, print the vocabulary word and the frequency 
for tag, count in zip(vocab, dist): 
    #print(tag, count) 
    ngram_freq[tag]=count 
+0

'.toarray()'は、疎行列を密行列に変換するので、使用しないでください。ちょうどそれを残す –

関連する問題