文書内の単語を数える最善の方法を知りたい。自分の "corp.txt"コーパスの設定があり、 "corp.txt"というファイルに "students、trust、ayre"がどれほど頻繁に存在するかを知りたい。私は何を使うことができますか?ほとんどの人はちょうど(0の既定値で)defaultdictionaryを使用することになりコーパス文書内の単語を数える方法
....
full=nltk.Text(mycorpus.words('FullReport.txt'))
>>> fdist= FreqDist(full)
>>> fdist
<FreqDist with 34133 outcomes>
// HOW WOULD I CALCULATE HOW FREQUENTLY THE WORDS
"students, trust, ayre" occur in full.
おかげで、 レイ
どちらも標準のpythonライブラリによって提供されたものの一つ:あなたも、あなたのトークン化を小文字にしたいかもしれませんのでFreqDistやカウンターオブジェクトのキーは、大文字と小文字が区別されていることに注意してください。あなたはNLTKを考えていないと確信していますか? –
あなたの名前を見ると、私はあなたが "学生がayreを信頼する"ことを知っていると思っているつもりです。とにかく、私は 'FreqDist'と一緒に行くでしょう。 'fdist = FreqDist(); for tokenize.whitespace(sent):fdist.inc(word.lower()) 'の単語です。 doc [here](http://nltk.googlecode.com/svn/trunk/doc/api/nltk.probability.FreqDist-class.html)を確認できます。 – aayoubi
私は答えを編集しました。私はそれをもう一度確認してください。ありがとうございます –