小文字で始まる名前付きエンティティを検出するのに問題があります。小文字の単語だけでモデルを訓練すれば、正確さは合理的です。しかし、モデルが完全に大文字のトークン、あるいは小文字と大文字の組み合わせで訓練されている場合、結果は非常に悪いです。私はスタンフォードNLPグループClass NERFeatureFactoryと様々な文章によって提示されたいくつかの機能を試しましたが、私が期待した結果を得ることができませんでした。 私が直面している問題の例は次の通りです。スタンフォードNER小文字
"アリは大学のミシガンで学んだし、今は私たちのために働いています。
私はモデルが次のように実体を認識することが期待:
- "大学": "ミシガン州の" "FACILITY"、
- : "FACILITY"、
- "アリ": "PERSON"
- "私たち": "組織"
- "海軍": "組織"
.Tの場合訓練データとして使用されていたSVファイルには、小文字しか含まれていないため、上記の結果を得ることができます。
どのようなヘルプも高く評価されます。