金融市場に関連するニュース記事のテキスト分析を行っています。これらのニュースから例のテキストはCoreNLPを使用してテキストを文章に分割するときにエラーが発生する
フィード「我々は、彼らが悪い取引に投資していなかったことを確認 を作るために、よりCBSの側からそれを評価しなければならない、」マイケルCuggino、社長兼 ポートフォリオマネジャーでサンフランシスコに本拠を置くパーマネント・ポートフォリオ・ファミリー CBSとViacomの議決権を所有しているファンドは ニューヨーク証券取引所のMuoioを拠点とするロイター・サルバトーレ・ムオイオ氏に語った。& Co Viacom議決権株式の大株主である の入札プロセスViacomは最も価値が高いと認識していました.Viacomはそのような企業にAMCとDiscoveryのプログラムを提供し、より良い交渉を可能にするように ケーブルおよび衛星代理店から 高い手数料のためのTEは、ベライゾン、アップル、ディスカバリーのためMuoio said.Representativesは コメントを控えた。」
を私は分析のためのスタンフォードCoreNLPライブラリを使用しています。上記の文章で
Reuters.Salvatore
が
Reuters. Salvatore
により、このエラーにする必要があり、正しく文章にテキストを分割することはできないので、coreNLPパーサーは文maxlenを警告、時にはNullPointerExceptionが投げています。
このタイプのエラーは、一部のテキストでランダムに発生します。 CoreNLPをこれらの種類のテキストで動作させるにはどうすればよいですか?
は、データ上で重要な句読点ですか?期間を分割したり、削除したりできますか? –