-1
私は、各行に正確に1つの文書があるような複数のテキストファイルを持っています。NLTK/SKLearnにテキストデータの基本的な分析を行うモジュール/関数がありますか?
- ユニグラム の数
- などのdoc の長さのドキュメント
- SD
NLTK/SKLEARNにはその機能がありますか?私はさらなる洞察を気にしません。ユニグラム
from itertools import tee, izip
def bigrams(iterable):
a, b = tee(iterable)
next(b, None)
return izip(a, b)
with open("data.txt", 'r') as f:
for line in f:
words = line.strip().split()
uni = words
bi = bigrams(words)
print uni
print list(bi)
2)文
sents = text.split('.')
avg_len = sum(len(x.split()) for x in sents)/len(sents)
3)の平均長さの