NLTK/SKLearnにテキストデータの基本的な分析を行うモジュール/関数がありますか？

-1

私は、各行に正確に1つの文書があるような複数のテキストファイルを持っています。NLTK/SKLearnにテキストデータの基本的な分析を行うモジュール/関数がありますか？

ユニグラム
などのdoc
SD

の平均長さ：私は、テキスト上で基本的な分析を行うなどの質問に答えるしたいです

NLTK/SKLEARNにはその機能がありますか？私はさらなる洞察を気にしません。ユニグラム

from itertools import tee, izip 

def bigrams(iterable): 
    a, b = tee(iterable) 
    next(b, None) 
    return izip(a, b) 

with open("data.txt", 'r') as f: 
    for line in f: 
     words = line.strip().split() 
     uni = words 
     bi = bigrams(words) 
     print uni 
     print list(bi)

2）文

sents = text.split('.') 
avg_len = sum(len(x.split()) for x in sents)/len(sents)

3）の平均長さの

出典

2016-06-25 user3667569

1）＃は、それを自分で行います！そのためのAPIはありません。

出典

2016-07-01 00:58:37 Aaron

NLTK/SKLearnにテキストデータの基本的な分析を行うモジュール/関数がありますか？

答えて

関連する問題