2016-12-19 5 views
0

core-nlpアノテーションパイプラインをデフォルト設定で使用して、トークン化からner_tagsまでを使用しようとしています。私は、 "tokenizer"モジュールが{副社長}と{タイトル}の代わりに{o、TITLE}というner_tagsの識別をもたらす2つの個別のトークン{副社長}として "副社長"を識別しているのを観察しました。どのようにNer_Tagsが適切なタイトルを識別するのに役立つかを、「副社長」を1つのトークンとして識別させるためにトークナイザを入手することができます。スタンフォードcore-nlpでトークン化する前にn-gramを識別する方法は?

答えて

2

TITLEをNERタグとして取得するために使用しているプロパティは何ですか?これは標準タグの1つではありません。トークンRegexNER注釈を使用している場合(たとえば、kbp注釈)、副社長のようなマルチワードタイトルを選択する必要があります。少なくともcorenlp.runで動作します。

一般にNERスパンを1つの言葉に集約するのはトークナイザの仕事ではありません。 tokenizerは、 'vice'と 'president'を別々のトークンに分割する必要があります。どちらも適切なNERアノテーターによってTITLEとマークする必要があります。 entitymention annotatorに興味があるかもしれません。これはNERの連続したタグをNERの言葉にグループ化しています。これは、TITLEとしてマークされた2つのトークンではなく、これらの言及は、文CoreMapのmentions annotation、またはsimple APIList<String> mention(String nerTag)またはList<String> mentions()機能を使用して取得できます。

関連する問題