テキストファイル（または他のドキュメント）のパーサーを作成するには？

-2

私は以下の作業をしています：スペルチェック辞書（単純なtxtファイル）を埋めるために私はパーサーが必要です： - テキストファイル（または別の種類の文書）内で解析し、各単語を抽出し、このような単語のリスト：あなたは何を示唆しているスクリプト言語とライブラリ adfadf adfasdfa adfasfdasdf adsfadf ... など？可能であれば、コード例を挙げてください（特に各単語を抽出する場合）。ありがとう！テキストファイル（または他のドキュメント）のパーサーを作成するには？

出典

2011-11-10 user939536

あなたの単語のシーケンスを渡すことができるトークン辞書にオンラインで多くのオープンソースプロジェクトがあります。ここではJavaのアルゴリズムを見つけることができます：http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html –

あなたが望むのはパーサではなく、トークナイザだけです。これは、正規表現の束を持つ任意の言語で行うことができますが、私はNLTKでのPythonをお勧めします：

>>> from nltk.tokenize import word_tokenize 
>>> word_tokenize('Hello, world!') 
['Hello', ',', 'world', '!']

を一般的に、ただのNLPツールキットについてトークナイザが含まれますので、車輪の再発明する必要はありません。トークン化は困難ではありませんが、省略語、頭字語などのすべての例外を処理するためのヒューリスティックスをたくさん書いていきます。

出典

2011-11-10 11:06:45

ありがとう！私はそのようにしてくれるでしょう – user939536

@ user939536：あなたの問題を解決するなら、この答えの隣にあるチェックマークを忘れないようにしてください。 –

大丈夫、本当に助けになりました！私のaquaintantsは、このスクリプトを作成しています、ありがとう！ – user939536

テキストファイル（または他のドキュメント）のパーサーを作成するには？

答えて

関連する問題