2

特定のドメイン内のNEを識別する分類子を構築する必要があります。たとえば、自分のドメインがホッケーまたはフットボールの場合、クラシファイアはそのドメインでNEを受け入れますが、Webページに表示されるすべての代名詞ではありません。私の最終的な目標は、NERを通じてテキスト分類を改善することです。MLベースのドメイン固有名詞認識(NER)?

この分野で働いている方には、どのように分類器を作成すればよいですか?感謝! ありがとう!

答えて

1

代名詞を無視するだけであれば、任意のNERアルゴリズム(スタンフォードパッケージは一般的な実装です)を実行したPOSタガーを実行してから、代名詞である名前付きエンティティを無視します。ただし、代名詞は名前付きエンティティを参照する可能性がありますが、これは分類子のパフォーマンスにとって重要であるかどうかは分かりません。試してみる唯一の方法です。

ドメイン固有のデータ(例:ホッケー)で訓練されたNERシステムは、コンテキストエンティティの一部が表示されるため、そのドメインからエンティティを取得する可能性が高くなります。システムによっては、文法、単語の形などの理由で、他のドメインのエンティティを拾うこともあります。

+0

私がしたいことは、本当にNERに基づいています。だから、私はHoeky、Football(スポーツではない)のような絞り込まれたドメインを選んだのです。だから私はクラシファイアがそのドメイン上の代名詞(選手名、チーム、アイテム製造会社など、全てが関連しているかもしれない)を特定するが、すべての代名詞を特定することは望ましくない。 – KillBill

+0

contd。クラシファイアは100%の精度がないため、無関係なエンティティをほとんど拾わないようにすることができます。あなたが言及したように、POSタガーの後にNERアルゴリズムがどのように代名詞を無視するのか分かりません。私はあなたが「少し関係のないコメント」で言及したものだと思っています。はい、クラシファイアはエンティティが表示されるコンテキストを調べる必要があります。そのため、手動でそのエンティティのリストを作成してトレーニングデータを収集する必要があります。 – KillBill

+0

私が言いましたPOSタガーは、NERクラシファイアではありませんでした(ただしPOSタグは便利な機能です)。これは後処理のためのものです。 NEのタグ付け後、POSタグがPPの名前付きエンティティを削除することをお勧めします。 – mbatchkarov

関連する問題