2016-05-05 7 views
1

銀行ワイヤ取引のコメントのような自然なテキストからエンティティ(名前、住所、組織)を抽出しようとしています。 NLTK、OpenNLP、およびCoreNLPが使用されていることは明らかです。銀行ワイヤ取引からのエンティティ抽出(非自然テキストなど)

結果を改善する方法はありますか?

テキストは次のように見ることができ、

  1. EVERITT 620122T NAT ABC INDIA LTD
  2. REF ROBERT FINEMANN - REASON SHOPレンタル
  3. REF BY92 00 112233999 - REASONスピード違反の罰金
  4. GEM SS HEUTIGEM SCHIENDLER
  5. ペンションCH1234 CAB28

...研究活動や既存製品へ

参考にもあなたが辞書/データベースを使用する必要があります私には思える

+0

あなたはそのようなサービスに「支払う」必要があるかもしれません; P – alvas

答えて

0

をするのに役立ちます。

あなたは、このように手順を使用して1を成長させてみてください:http://www.cs.columbia.edu/~mcollins/papers/eacl2014.pdf

しかし、あなたはまだ候補「フレーズ」の定義の仕方持っている必要があります - 例えば、紙からの例をここでは明らかに機能しません。

1

あなたがopennlpを使用して訓練する方法を知っている場合、あなたは

<START:name> EVERITT <END> <START:Address> 620122T NAT <END> <START:Organisation> ABC INDIA LTD <END> 
....... 
....(15000 lines) 

のように見えることができ、その後、あなたはいくつかの良い結果を期待することができ、トレーニングデータ内の15000例を与える必要があります!

関連する問題