2011-11-10 5 views
-2

私は以下の作業をしています:スペルチェック辞書(単純なtxtファイル)を埋めるために私はパーサー が必要です: - テキストファイル(または別の種類の文書)内で解析し、各単語 を抽出し、このような単語のリスト:あなたは何を示唆しているスクリプト言語とライブラリ adfadf adfasdfa adfasfdasdf adsfadf ... など ?可能であれば、コード例を挙げてください(特に各単語を抽出する場合)。ありがとう!テキストファイル(または他のドキュメント)のパーサーを作成するには?

+0

あなたの単語のシーケンスを渡すことができるトークン辞書にオンラインで多くのオープンソースプロジェクトがあります。ここではJavaのアルゴリズムを見つけることができます:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html –

答えて

2

あなたが望むのはパーサではなく、トークナイザだけです。これは、正規表現の束を持つ任意の言語で行うことができますが、私はNLTKでのPythonをお勧めします:

>>> from nltk.tokenize import word_tokenize 
>>> word_tokenize('Hello, world!') 
['Hello', ',', 'world', '!'] 

を一般的に、ただのNLPツールキットについてトークナイザが含まれますので、車輪の再発明する必要はありません。トークン化は困難ではありませんが、省略語、頭字語などのすべての例外を処理するためのヒューリスティックスをたくさん書いていきます。

+0

ありがとう!私はそのようにしてくれるでしょう – user939536

+0

@ user939536:あなたの問題を解決するなら、この答えの隣にあるチェックマークを忘れないようにしてください。 –

+0

大丈夫、本当に助けになりました!私のaquaintantsは、このスクリプトを作成しています、ありがとう! – user939536

関連する問題