私は次のメソッドを使用して、パンダのデータフレームからngramsを抽出していますsklearn

を使用してnグラムの用語のそれぞれの周波数を取得します。条項？私は次のメソッドを使用して、パンダのデータフレームからngramsを抽出していますsklearn

2016-06-20 Bonson

を取得するために使用されるコードを投稿。たとえば、{"word1"：0、 "word2"：1}のようになります。必要なfreqは、変数X_train_countsの非ゼロ項によって与えられます。つまり、最初の列の値が2の場合、つまり「word1」が2回発生します。これは役に立ちますか？ – geompalik

@geompalik入手！助けになる..！！ありがとう!! – Bonson

私はあなたが用語や機能の指標との間のマッピングを持って定義された単語変数でカウント

train_data_features = X_train_counts.toarray() 
vocab = vect.get_feature_names() 
dist = np.sum(train_data_features, axis=0) 
ngram_freq = {} 

# For each, print the vocabulary word and the frequency 
for tag, count in zip(vocab, dist): 
    #print(tag, count) 
    ngram_freq[tag]=count

出典

2016-06-22 07:49:56 Bonson

'.toarray（）'は、疎行列を密行列に変換するので、使用しないでください。ちょうどそれを残す –

私は次のメソッドを使用して、パンダのデータフレームからngramsを抽出していますsklearn

答えて

関連する問題