2017-03-13 8 views
2

小文字で始まる名前付きエンティティを検出するのに問題があります。小文字の単語だけでモデルを訓練すれば、正確さは合理的です。しかし、モデルが完全に大文字のトークン、あるいは小文字と大文字の組み合わせで訓練されている場合、結果は非常に悪いです。私はスタンフォードNLPグループClass NERFeatureFactoryと様々な文章によって提示されたいくつかの機能を試しましたが、私が期待した結果を得ることができませんでした。 私が直面している問題の例は次の通りです。スタンフォードNER小文字

"アリは大学のミシガンで学んだし、今は私たちのために働いています。

私はモデルが次のように実体を認識することが期待:

  • "大学": "ミシガン州の" "FACILITY"、
  • : "FACILITY"、
  • "アリ": "PERSON"
  • "私たち": "組織"
  • "海軍": "組織"

.Tの場合訓練データとして使用されていたSVファイルには、小文字しか含まれていないため、上記の結果を得ることができます。

どのようなヘルプも高く評価されます。

答えて

1

あなたは小文字または混在ケースのテキストを持っている場合は、精度はスタンフォードNLPモデルとして影響を受け得ることができますが標準的に編集されたデータを上の訓練を受けたが、この問題にアプローチするために有用ないくつかの方法がありますされています

  1. 1つの方法は、true case annotatorでテキストを正しく大文字にしてから、結果のテキストを通常のNERモデルで処理することです。
  2. もう1つの方法は、スタンフォードNERの一部として利用可能なものを含む、カジュアルなモデルを探索することです。

hereを読むことができます。

関連する問題