私は多くのNERツール(OpenNLP、スタンフォードNER、LingPipe、Dbpedia Spotlightなど)に手を差し伸べました。名詞ベースの名前付きエンティティ認識(NER)システムを作成するにはどうすればよいですか?
しかし、常に私を忌避してきたのは、無料のテキストがあらかじめ定義されたエンティティ名のリストと照合され、潜在的な一致が返される、地名辞典/辞書ベースのNERシステムです。
このようにして、私はPERSON、ORGANIZATIONなどのようなさまざまなリストを持つことができました。リストを動的に変更して別の抽出を得ることができました。これはトレーニング時間を大幅に短縮します(その大部分はmaximum entropy modelに基づいているため、大規模なデータセットにタグを付けたり、モデルをトレーニングするなど)。
私はOpenNLP POSタガーを使って非常に粗末な地名辞典ベースのNERシステムを構築しました。そこからすべての固有名詞(NP)を取り出し、私のリストから作成したLuceneインデックスでそれらを検索しました。しかし、これは私に多くの誤認をもたらします。例えば、私のルーキー指数が「サムスンエレクトロニクス」で、私のPOSタガーが私に「エレクトロニクス」をNPとして与えた場合、私は部分一致をしているので、私は「サムスン電子」を返すだろう。
私はまた、CRFアルゴリズムの特徴として地名辞典を使用することについて話している人々を読んでいます。しかし、私はこれを理解できませんでしたapproach。
私は、地名辞典や辞書にNERを組み込む明確で堅実なアプローチに導くことができますか?