2017-04-10 11 views
2

次のテキストファイルがあります(hereからダウンロードできます)。Python - NLTKでテキストを検索

私はファイルlanguageを検索しようとしています。そのために、私は次のPythonスクリプトを持っている:私は、しかし、プログラムを実行すると、ファイルが単語languageが含まれていますが、

import nltk 

file = open('NLTK.txt', 'r') 
read_file = file.read() 
text = nltk.Text(read_file) 
match = text.concordance('language') 
print(match) 

、私は次のような出力が得られます。

No matches 
None 

なぜプログラムではありませんでしそのファイルにはlanguageという単語がありますか?

EDIT 1

私は声明text = nltk.Text(read_file)戻っていることに気づい:

<Text: T h i s i s ...> 

感謝。

+0

問題を解決する方法について正しい答えがありますが、ここにもう1つのアドバイスがあります: 'Text'クラスで作業することを忘れないでください。インタラクティブな探索とデモンストレーションのためだけに設計されています。 'PlaintextCorpusReader'(および注釈付きフォーマットのそれに対応するもの)に直接行ってください。 – alexis

答えて

4

生のテキスト(as per ch3)を処理するには、まずトークン化する必要があると思います。トークン化して処理すると、サンプルテキストに結果が表示されます。

import nltk 

file = open('NLTK.txt', 'r') 
read_file = file.read() 
text = nltk.Text(nltk.word_tokenize(read_file)) 

match = text.concordance('language') 

または、nltkコーパスリーダーを使用してトークン化と処理を行うことができます。

import nltk 
from nltk.corpus import PlaintextCorpusReader 

corp = PlaintextCorpusReader(r'C:/', 'NLTK.txt') 
text = nltk.Text(corp.words()) 

match = text.concordance('language') 

一致結果;

Displaying 18 of 18 matches: 
            Language Processing . By `` natural languag 
            language '' we mean a language that is used 
            language that is used for everyday communic 
licit rules . We will take Natural Language Processing ・or NLP for short ・in a 
f computer manipulation of natural language . At one extreme , it could be as 
ted access to stored information , language processing has come to play a cent 
e textbook for a course on natural language processing or computational lingui 
is based on the Python programming language together with an open source libra 
source library called the Natural Language Toolkit (NLTK) . NLTK includes e 
s are deployed in a variety of new language technologies . For this reason it 
rite programs that analyze written language , regardless of previous programmi 
is book to get immersed in natural language processing . All relevant Python f 
ty for this application area . The language index will help you locate relevan 
mples and dig into the interesting language analysis material that starts in 1 
text using Python and the Natural Language Toolkit . To learn about advanced 
an help you manipulate and analyze language data , and how to write these prog 
s are used to describe and analyse language How data structures and algorithms 
and algorithms are used in NLP How language data is stored in standard formats 
関連する問題