2016-07-22 3 views
0

金融市場に関連するニュース記事のテキスト分析を行っています。これらのニュースから例のテキストはCoreNLPを使用してテキストを文章に分割するときにエラーが発生する

フィード「我々は、彼らが悪い取引に投資していなかったことを確認 を作るために、よりCBSの側からそれを評価しなければならない、」マイケルCuggino、社長兼 ポートフォリオマネジャーでサンフランシスコに本拠を置くパーマネント・ポートフォリオ・ファミリー CBSとViacomの議決権を所有しているファンドは ニューヨーク証券取引所のMuoioを拠点とするロイター・サルバトーレ・ムオイオ氏に語った。& Co Viacom議決権株式の大株主である の入札プロセスViacomは最も価値が高いと認識していました.Viacomはそのような企業にAMCとDiscoveryのプログラムを提供し、より良い交渉を可能にするように ケーブルおよび衛星代理店から 高い手数料のためのTEは、ベライゾン、アップル、ディスカバリーのためMuoio said.Representativesは コメントを控えた。」

を私は分析のためのスタンフォードCoreNLPライブラリを使用しています。上記の文章で

Reuters.Salvatore 

Reuters. Salvatore 

により、このエラーにする必要があり、正しく文章にテキストを分割することはできないので、coreNLPパーサーは文maxlenを警告、時にはNullPointerExceptionが投げています。

このタイプのエラーは、一部のテキストでランダムに発生します。 CoreNLPをこれらの種類のテキストで動作させるにはどうすればよいですか?

+0

は、データ上で重要な句読点ですか?期間を分割したり、削除したりできますか? –

答えて

0

長すぎる文章をスキップすると、あなたのユースケースのために許容可能である場合には(少なくとも、それがデータの残りの部分を進めるように)、多分これは何が必要です:Setting max Length for Sentence in StanfordCoreNLP

+0

いいえ、私は文章を飛ばす余裕がありません。テキストをcorenlpの文に分割した後、regexを使って文を再度分割します。完璧な解決策ではありませんが、エラー率を十分に下げました。 – ashwinids

関連する問題