私は文章でいっぱいのテキストファイルに対してデータクリーニング作業を行っています。これらの文章を間違えた後、私はその単語の出現頻度を私の出てきたリストに入れたいと思っています。しかし、私は、茎のリストを印刷するときのような問題に遭遇stem_listています、私はそうのように、すべての文のためのリストを取得しています:Pythonでステミングした後の単語の頻度を調べる
[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori']
[u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti']
[u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com']
私はすべての単語の頻度を取得したいと思いますが、私は唯一取得しています以下のコードを使用して、文あたり周波数:
fdist = nltk.FreqDist(stem_list)
for word, frequency in fdist.most_common(50):
print(u'{};{}'.format(word, frequency))
これは以下の出力を生成している。 友人; 2 paymast 1 もう1 memori 1 パルティ。 1 たち; 1 日; 1 エニオン;忘れて1 ; 1つの と思うが、実際に1 ; 2 properti; 2 VALU; 2 友人; 1 repres; 1 relev; 1 買いました。 1 週1つの 貨物1つの モンスター1 時間; 1つの 残骸; 1つの アップロード1 passeng;少なくとも1 1つの リーフ1 24; 1つの 容器1 船; 1 COM; 1 内; 1 エリア; 1 territori; 1 カスタム; 1 水; 1 3;それが2であるので、1
は、単語 '友人' を二度カウントされています異なる文章。私はそれを友人に一度カウントさせて友人を表示させるにはどうすればいいのですか?
stem_list = [inner for outer in stem_list for inner in outer]
を、あなたが行うのと同じ方法で処理する:
あなたはdefinitvelyユーザーが定義 –
道をhttps://docs.python.org/2/library/collections.html#collections.Counterを見ている必要があります'stem_list'の構文が無効です。有効な定義を入力してください。 – trincot