CoreNLPを使用してテキストを文章に分割するときにエラーが発生する

金融市場に関連するニュース記事のテキスト分析を行っています。これらのニュースから例のテキストはCoreNLPを使用してテキストを文章に分割するときにエラーが発生する

フィード「我々は、彼らが悪い取引に投資していなかったことを確認を作るために、よりCBSの側からそれを評価しなければならない、」マイケルCuggino、社長兼ポートフォリオマネジャーでサンフランシスコに本拠を置くパーマネント・ポートフォリオ・ファミリー CBSとViacomの議決権を所有しているファンドはニューヨーク証券取引所のMuoioを拠点とするロイター・サルバトーレ・ムオイオ氏に語った。& Co Viacom議決権株式の大株主であるの入札プロセスViacomは最も価値が高いと認識していました.Viacomはそのような企業にAMCとDiscoveryのプログラムを提供し、より良い交渉を可能にするようにケーブルおよび衛星代理店から高い手数料のためのTEは、ベライゾン、アップル、ディスカバリーのためMuoio said.Representativesはコメントを控えた。」

を私は分析のためのスタンフォードCoreNLPライブラリを使用しています。上記の文章で

Reuters.Salvatore

が

Reuters. Salvatore

により、このエラーにする必要があり、正しく文章にテキストを分割することはできないので、coreNLPパーサーは文maxlenを警告、時にはNullPointerExceptionが投げています。

このタイプのエラーは、一部のテキストでランダムに発生します。 CoreNLPをこれらの種類のテキストで動作させるにはどうすればよいですか？

出典

2016-07-22 ashwinids

は、データ上で重要な句読点ですか？期間を分割したり、削除したりできますか？ –

長すぎる文章をスキップすると、あなたのユースケースのために許容可能である場合には（少なくとも、それがデータの残りの部分を進めるように）、多分これは何が必要です：Setting max Length for Sentence in StanfordCoreNLP

出典

2016-09-15 15:07:23 Igor

いいえ、私は文章を飛ばす余裕がありません。テキストをcorenlpの文に分割した後、regexを使って文を再度分割します。完璧な解決策ではありませんが、エラー率を十分に下げました。 – ashwinids

CoreNLPを使用してテキストを文章に分割するときにエラーが発生する

答えて

関連する問題