私はOpenNLP文章検出ツールを試しています。テキストはファイル-para3.txtにあります。私はこのような出力を得るOpenNLPによる文章検出
opennlp SentenceDetector ../models/en-sent.bin < para3.txt
::内容量:
Bob went to London Mary came from Paris Now everything is fine.
私は、次のコマンドでこれを実行している理想的
Bob went to London Mary came from Paris Now everything is fine.
を、私は出力として3つの文章を見ているだろう。
Bob went to London.
Mary came from Paris.
Now everything is fine.
ここで、I tr 「完全停止」または「ピリオド」が存在する他のセンテンスの場合は、文の検出が正常に行われています。人間は、文章に3つの文章があると推測しましたが、OpenNLPでそれをどうやって完成させるのでしょうか? NLPのどのツールがここで助けてくれるでしょうか?文章検出の次のレベルは何ですか?
文章チャンクのための最も訓練されたモデルは、頭字語、タイトルなどに使用される完全な停止またはドットとして現れるドットを区別しようとしています。特殊なテクニックを使用する必要があるか、モデル。 –