スタンフォードNERクラシファイア改行問題

私は3クラスモデルのスタンフォードNERを使用して、ファイル内の人物、場所、および組織を識別しています。
JANE DOE
JOHN DOE
JANE SMITH
スタンフォードNERクラシファイア改行問題

NERツールが一つの大きな名前ではなく3つの名前としてこれらの3人の名前を考えている：それは改行で区切られた名前がある場合を除き、正常に動作します。それぞれの名前の後にカンマを置くと、3つの名前が表示されます。どのようにして3つの名前を区切るために改行を使用するようにツールに指示できますか？

出典

2016-04-29 RVT

名前が同じ「文章」内の連続するトークンとして終わる場合、それは起こります。あなたができる主なことは、システムにトークン/改行を改行で分割させることです。その後、それぞれの名前ごとに別々の文が得られます。一般に、これは、あなたのテキストが行ごとに1つのパラグラフ（現代のテキストでは普通のように、柔らかい行の折り返し）で書式設定されている場合はうまく動作しますが、改行が厳しいテキスト）これは、システムが各行を文として間違って扱うためです。両方の直接スタンフォードNERを呼び出し、CoreNLP通じのためにこれを行うコマンドは以下のとおりです。

java edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner" -file taylorswift.txt -outputFormat conll -ssplit.newlineIsSentenceBreak always

java edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz -textFile taylorswift.txt -tokenizerOptions tokenizeNLs=true

出典

2016-05-01 01:33:47

スタンフォードNERクラシファイア改行問題

答えて

関連する問題