1

多くのアルゴリズム(NaiveBayes、隠れマルコフモデル、条件付きランダムフィールドなど)を見つけましたが、ほぼすべてがエンティティを分類するために巨大なトレーニングデータを必要としているようです。トレーニングデータ用にテキスト全体を必要としないエンティティ認識器分類器アルゴリズムがありますか?

訓練データにテキストを含まずに認識できるアルゴリズムがあるかどうかを知りたいのですが、認識したいデータを表す単語だけ、あるいはいくつかの文字列パターンなどがあります。

私が避けたいのは、巨大なテキストをトレーニングデータとして使用する必要があることだけです。

答えて

2

見つけたい名前のエンティティの種類のリスト(通常「地名辞典」と呼ばれる)があり、訓練データに手動で注釈を付ける気がない場合は、名前付きエンティティ認識のブートストラップに関する作業を調べる必要があります。ブートストラップを使用して地名辞典を拡張したり、名前付きエンティティ認識プログラムを開発することができます。また、固有表現認識のための能動学習の研究のかなりの量があっただ

:いくつかの例では、私は、次の論文あるクイック検索で見つかったアプローチいくつかの手作業によるアノテーションを行うことにした場合、注釈を付ける必要があるトレーニングデータの量を大幅に削減することができます。

関連する問題