2017-02-18 15 views
7

オープンな名前付きエンティティ認識の問題(生物学/化学、エンティティの辞書は存在しませんが、コンテキストによって識別する必要があります)に適応するための最良のモデルは何ですか?TensorFlow名前付きエンティティ認識のRNN

現在、私の推測ではSyntaxnetをN、V、ADJなどのようにタグ付けするのではなく、BEGINNING、INSIDE、OUT(IOB表記)としてタグ付けするようにしています。

しかし、私はこれらのアプローチのどれがベストであるかわかりません。

  • Syntaxnet
  • word2vec
  • seq2seq(seq2seqは、翻訳のように異なる長さのシーケンスのために設計されているのに対し、私は、私は2つの整列された配列に学ぶためにそれを必要として、これは正しいものではないと思います)

正しいメソッドへのポインタに感謝します!ありがとう!

+1

Syntaxnetとseq2seqが動作します。また、contribには線形連鎖CRFがあります。 – drpng

答えて

7

シンタックスネットは名前付きエンティティ認識に使用できます。 Named Entity Recognition with Syntaxnet

word2vec単独では、名前付きエンティティの認識にはあまり効果的ではありません。私はseq2seqがそのタスクのために一般的に使用されているとは思わない。

drpngには、tensorflow/tree/master/tensorflow/contrib/crfがあります。 CRF層はビットを助ける前にLSTMを追加、something likeを与える:TensorFlowで

enter image description here

LSTM + CRFコード:https://github.com/Franck-Dernoncourt/NeuroNER

+1

大変ありがとうございます! 最後にSyntaxnetを使用しました。私はエンティティをIOB表記に変換し、Syntaxnet POSタグャーを以下の手順に従って訓練しました:https://github.com/tensorflow/models/tree/master/syntaxnet それはとてもうまくいった、私は78% – Tom

+0

@Tomを得ました知っておいてよかった。 NERシステムのベンチマーキングのために、私は個人的に最初の比較ポイントとしてconll2003データセットを使用します。無料でANNを訓練するのに十分な大きさで、十分に小さく、進化スクリプトが付属しています。 –

関連する問題