スタンフォードcore-nlpでトークン化する前にn-gramを識別する方法は？

core-nlpアノテーションパイプラインをデフォルト設定で使用して、トークン化からner_tagsまでを使用しようとしています。私は、 "tokenizer"モジュールが{副社長}と{タイトル}の代わりに{o、TITLE}というner_tagsの識別をもたらす2つの個別のトークン{副社長}として "副社長"を識別しているのを観察しました。どのようにNer_Tagsが適切なタイトルを識別するのに役立つかを、「副社長」を1つのトークンとして識別させるためにトークナイザを入手することができます。スタンフォードcore-nlpでトークン化する前にn-gramを識別する方法は？

出典

2016-12-19 Data-Nerd

TITLEをNERタグとして取得するために使用しているプロパティは何ですか？これは標準タグの1つではありません。トークンRegexNER注釈を使用している場合（たとえば、kbp注釈）、副社長のようなマルチワードタイトルを選択する必要があります。少なくともcorenlp.runで動作します。

一般にNERスパンを1つの言葉に集約するのはトークナイザの仕事ではありません。 tokenizerは、 'vice'と 'president'を別々のトークンに分割する必要があります。どちらも適切なNERアノテーターによってTITLEとマークする必要があります。 entitymention annotatorに興味があるかもしれません。これはNERの連続したタグをNERの言葉にグループ化しています。これは、TITLEとしてマークされた2つのトークンではなく、これらの言及は、文CoreMapのmentions annotation、またはsimple APIのList<String> mention(String nerTag)またはList<String> mentions()機能を使用して取得できます。

出典

2016-12-22 06:16:52

スタンフォードcore-nlpでトークン化する前にn-gramを識別する方法は？

答えて

関連する問題