英語の文書を文章に分割する良い方法はありますか?私は、英語の文書には、米国夫人などが頻繁に含まれていることを意味します。これを達成するために特別な自然言語ライブラリが必要ですか?私はそれが必要だと思う。C#の文章に英語の文書を分割する良い方法を見つけようとする
ありがとうございます。
英語の文書を文章に分割する良い方法はありますか?私は、英語の文書には、米国夫人などが頻繁に含まれていることを意味します。これを達成するために特別な自然言語ライブラリが必要ですか?私はそれが必要だと思う。C#の文章に英語の文書を分割する良い方法を見つけようとする
ありがとうございます。
技術的には、仕事をするには英語を完全に理解する必要があります。
まあまあの解決策として、「期間が終了するもの」の辞書を使用し、それらのトークンの1つのすぐ後に続く期間に分割することができます。
すべての文章が大文字で始まり、ピリオドで終わる場合、私は上記のように文を定義しますが、> 1語を含み、(共通の略語リストまたは正規表現[a-zA-Z]で終わらない。 +)
あなたは、このようなOpenNLPやStanford CoreNLPなどの多数のNLPツールによって提供さ文検出器を使用することができます。彼らは、米国夫人のようなケースを扱うことができます。
OpenNLPとスタンフォードCoreNLPの両方がJavaで書かれています。
SharpNLPはC#(移植済み) OpenNLPのバージョンです。
ありがとうございました。私はそれを達成するために図書館が必要なようです。 –
もちろん、省略形でも文章が終わる場合があります。 "私は夫人と話す必要がある"またはあなたの質問の "etc"! – tripleee