私は以下の作業をしています:スペルチェック辞書(単純なtxtファイル)を埋めるために私はパーサー が必要です: - テキストファイル(または別の種類の文書)内で解析し、各単語 を抽出し、このような単語のリスト:あなたは何を示唆しているスクリプト言語とライブラリ adfadf adfasdfa adfasfdasdf adsfadf ... など ?可能であれば、コード例を挙げてください(特に各単語を抽出する場合)。ありがとう!テキストファイル(または他のドキュメント)のパーサーを作成するには?
答えて
あなたが望むのはパーサではなく、トークナイザだけです。これは、正規表現の束を持つ任意の言語で行うことができますが、私はNLTKでのPythonをお勧めします:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
を一般的に、ただのNLPツールキットについてトークナイザが含まれますので、車輪の再発明する必要はありません。トークン化は困難ではありませんが、省略語、頭字語などのすべての例外を処理するためのヒューリスティックスをたくさん書いていきます。
ありがとう!私はそのようにしてくれるでしょう – user939536
@ user939536:あなたの問題を解決するなら、この答えの隣にあるチェックマークを忘れないようにしてください。 –
大丈夫、本当に助けになりました!私のaquaintantsは、このスクリプトを作成しています、ありがとう! – user939536
- 1. swaggerまたは他のツールを使用してRest APIドキュメントを生成する
- 2. パーサー(lex/yacc)の作成方法は?
- 3. サーブレットにテキストファイルを作成または書き込む方法は?
- 4. JAXBまたは他のいずれかのXBRLパーサー
- 5. xcodeでのtxtドキュメントのパーサー
- 6. elasticsearch:ドキュメント作成中にメタフィールド_idを他のフィールドにコピー
- 7. ドキュメントまたはノードからInputStreamを作成する方法
- 8. 単語またはpdfドキュメントからレポートを作成する
- 9. 別のドキュメントを作成中にドキュメントにフィールドを作成するにはどうすればよいですか?
- 10. iPhoneのアプリのテンポラリディレクトリにテキストファイルを作成するには
- 11. Googleドキュメント:ポートレート文書に1つまたは複数のランドスケープページを作成する
- 12. PHP:PDFドキュメントを生成する。テンプレートを作成するには?
- 13. 他のユーザーが作成したクリアケースを削除するには?
- 14. gitweb(または他のgit web-interface)でサブグループページを作成するには?
- 15. Ruby(Rails以外)でOAuthプロバイダを作成するためのチュートリアルまたはドキュメント
- 16. SAX xmlパーサーまたはDOMパーサー?
- 17. /var/mobile/jailbroken iOSデバイスのドキュメントにフォルダを作成するには?
- 18. SVG(または他の画像)の上にキャンバスを作成する
- 19. 作成したドキュメントにリダイレクトする方法は?
- 20. java.util(オリジナルドキュメント)のリンクを含むドキュメントを作成するには
- 21. 同じPowerPointドキュメント内の他のスライドへのハイパーリンクの作成
- 22. は、オブジェクトを作成するには、テキストファイルを解析
- 23. Pythonで偽のテキストファイルを作成するには
- 24. Apache SparkでテキストファイルのHDFSを作成するには?
- 25. 相互に排他的な、またはプロローグの作成
- 26. ApacheのpoiでHWPFドキュメントを作成するには
- 27. ASP.NET Core Web APIのドキュメントを作成するには?
- 28. Rubyカスタムオブジェクトのドキュメントから範囲を作成するには?
- 29. Xcodeでインスタンス変数とメソッドのドキュメントを作成するには?
- 30. JythonプロジェクトでSphinxベースのドキュメントを作成するには?
あなたの単語のシーケンスを渡すことができるトークン辞書にオンラインで多くのオープンソースプロジェクトがあります。ここではJavaのアルゴリズムを見つけることができます:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html –