PythonのNLTKには、テキスト内の単語の頻度を示す関数FreqDistがあります。私はテキストを引数として渡そうとしていますが、結果は次の形式です:[''、 'e'、 'a'、 'o'、 'n'、 'i'、 't'、 'r' 's'、 'l'、 'd'、 'h'、 'c'、 'y'、 'b'、 'u'、 'g'、 '\ n'、 'm'、 'p' '' '' '' '' '' '' '' '' '' '' '' '9' '' '' '' '' '' '' '' '' '' '' ' 「A」「G」「P」「T」「W」「〔〕」「」「」「」「〜」「〜」「〜」「〜 )、 '0'、 '7'、 'E'、 'J'、 'O'、 'R'、 'j'、 'x']のようになります。 。イムは、それをこのように手紙をやって:FreqDist with NLTK
file_y = open(fileurl)
p = file_y.read()
fdist = FreqDist(p)
vocab = fdist.keys()
vocab[:100]
あなたは私が間違っているのplsを持っているか知っていますおかげ
例へのリンクを追加してください。 –
NB、より良いPythonのイディオムは、 'file_y:...'または 'open(ファイルのURL):' – smci