2016-06-25 6 views
-1

私は、各行に正確に1つの文書があるような複数のテキストファイルを持っています。NLTK/SKLearnにテキストデータの基本的な分析を行うモジュール/関数がありますか?

  • ユニグラム
  • の数
  • などのdoc
  • の長さのドキュメント
  • SD

の平均長さ:私は、テキスト上で基本的な分析を行うなどの質問に答えるしたいです

NLTK/SKLEARNにはその機能がありますか?私はさらなる洞察を気にしません。ユニグラム

from itertools import tee, izip 

def bigrams(iterable): 
    a, b = tee(iterable) 
    next(b, None) 
    return izip(a, b) 

with open("data.txt", 'r') as f: 
    for line in f: 
     words = line.strip().split() 
     uni = words 
     bi = bigrams(words) 
     print uni 
     print list(bi) 

2)文

sents = text.split('.') 
avg_len = sum(len(x.split()) for x in sents)/len(sents) 

3)の平均長さの

答えて

1

1)#は、それを自分で行います!そのためのAPIはありません。

関連する問題