2017-01-13 5 views
0

regexnerモジュールを使用してカスタムTITLEを作成していますが、そのようなカスタムタイトルの後に「PERSON」と呼ばれるものがすべて「ORGANIZATION」と認識されます。 。regexnerを介してパターンに基づいてNERエンティティを変更する

例:

sentence_text、トークン、見出し語、ner_tagsの{会長、 "10/13/16にBMRNの$ 4.6Mを販売することを取締役会Bienaimeジャン=ジャック・ファイルの会長、。" 、委員会、Bienaime、Jean-Jacques、ファイル、To、Sell、$、4.6、M、of、BMRN、on、10/13/16、 {{タイトル、タイトル、タイトル、タイトル、O、O、O、O、O} - ジャック、ファイル、to、販売、$、4.6、m、bmrn、on、10/13/16、 (BMRN)は、2011年10月13日にForm 144を提出し、SECは以下の変更を報告しています。所有権:取引日取引タイプ株式金額株価単価---------------- ---------------------- ----------- --- ------------- --------------- ------------ 10/13/2016バイオマリン、医薬品、Inc、-LRB-、BMRN、-RRB-のChmn、Bienaime、Jean-Jacques)は、第10b5-1条の自動取引計画に基づき、53,125 $ 86.98 $ 4.6M *取引、日付、取引、タイプ、シェア、金額、価格、単位、累計、累計、共有、価値、----------------、----------------------------- -------、-------------、---------------、------------ 、10/13/2016、インテント、to、売る、、 "" 53,125 ""、$ 86.98、$ 4.6、M、、 - 、規則10b5-1、自動、取引計画」、「{Chmn、Bienaime、Jean-Jacques、BioMarin、Pharmaceutical、Inc、-lrb-、BMRN、-rrb-、file、a、form、144、on、10/13/2016取引、日付、取引、タイプ、シェア、金額、価格、1人あたりの金額、1株あたりの金額、 -----、------------------------------------、------- ------、---------------、------------、10/13/201 「自動」、「取引」、「計画」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、 O、O、O、O、O、O、O、MISC、O、O、O、O、O、O、O、O、O、O、O、O、O、O、 O、O、O、O、O、O、O、O、NUMBER、NUMBER、NUMBER、NUMBER、NUMBER、DATE、O、O、O、O、NUMBER、MONEY、MONEY、 取締役会長Gallagher Thomas Cは、10/20/16にGPCの$ 267.7Kを買収し、「{OMCOND、O、O、O、O、 (Gallagher、Board、Gallagher、Board of Gallagher、Thomas、C、Buys、$ 267.7、K、GPC、on、10/20/16) {{タイトル、タイトル、タイトル、団体、組織、団体、O、マネー、マネー、お金、お金、 O.、DATE、O} " {Chief、Executive、Officer、Chen、Zhou、ファイル、to、販売、$、1.0、m、of、yy、on、9/29/16、。 } "、" {タイトル、タイトル、タイトル、O、O、O、O、O、MONEY、MONEY、O、STOCK、O、DATE、O} " " YYのZhouは、SECに以下の所有権の変更を報告して、2011年9月29日にForm 144を提出しました:取引日取引タイプ株式金額株価1株当たりの価値------------- --- ------------------------------------ ----------- ----------------------------------------------------- 2011年9月29日18.550 $ 52.63 $ 1.0Mを売却する意思様式144は証券および(CEO、Chen、Zhou、of YY、Inc、-LRB-、YY、-RRB-、filed、a、Form、144)は、株式交換のための制限付き株式保有者の情報を反映するため、取引、日付、取引、タイプ、シェア、金額、プライス、シェア、バリュー、 - 、9/29/2016、with、SEC、レポーティング、以下、変更、イン、所有権: ---------------、---------------------------------- - 、-------------、---------------、------------、9/29 /証券、取引所、コミットメント、取引先、取引先、取引先、取引先、取引先、取引先、 {CEO、Che(チェチェン)、チェコ共和国、チェコ共和国)レポート、フォロー、チェンジ、変更、削除、削除、削除、削除、削除、削除、削除、取引、日付、取引、タイプ、シェア、金額、価格、1人あたりのシェア、価値、----------------、------- -----------------------------、-------------、------ ---------、------------、9/29/2016、インテント、to、売る、18,550 ""、$ 52.63、$、1.0、m 、証券、取引所、取引所、コミットメント、反映、情報、所有者、所有者、制限付株式、株式売却、それらの株式、株式、。O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、O、 O、O、O、O、O、O、O、O、O、O、O、NUMBER、NUMBER、NUMBER、NUMBER、DATE、O、O、O、NUMBER、MONEY、MONEY、MONEY 、金、金、O、O、数字、O、O、O、O、組織、組織、組織、組織、O、O、O、O、O、O、O、O、O、O、O 、O、O、O}」

は当初、私は私のregexner.mappingファイル内PERSONとしてそれらの名前を定義すると考え、しかし、いくつかの本のインスタンスとスケールアップの可能性があります。 は定期的に定義する方法表現がトークンを超えているため、組織の後にTITLEが続く場合は、団体を人物に置き換えてください。

例:/ M atch TITLE ORG/- > {replace to} - >/TITLE PERSON/

+0

@stanfordnlphelp何かアドバイスしてください –

答えて

1

問題の再現に問題があります。

私はちょうど1肩書きを持つサンプル・ジョブ・タイトルルールファイル作っ:

Chairman of the Board Bienaime Jean-Jacques 

そして、私は、このコマンドを使用::私はこのテキストに走った

chairman of the board TITLE MISC 1 

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -file sample-sentence.txt -outputFormat text -regexner.mapping job_title.rules -regexner.ignorecase 

私は「委員会の議長」を「タイトル」として取得し、「Bienaime Jean-Jacques」をPERSONとして取得します。

これはすべてスタンフォードCoreNLP 3.7.0で行われました。

スタンフォードCoreNLP 3.7.0には、役職のリストが多数含まれています。 regexnerアノテータを使用してジョブタイトルを検出できます。デフォルトでは、このアノテーターは私たちの役職のリストを使用します。私は "理事会の議長"がリストにないと認めますが。私は将来のバージョンのためにそれを追加します!

ジョブのタイトルのリストは、english-kbpモデルのjarにあるedu/stanford/nlp/models/kbp/regexner_caseless.tabというファイルにあります。ここで利用可能:http://stanfordnlp.github.io/CoreNLP/download.html

+0

sentence_text列のCSV形式、トークン、見出し語といくつかのより多くの例で更新、 –

+0

も、私は、まだトークンを超える正規表現を定義する方法を理解するために骨董午前ner_tags TITLEの後にORGANIZATIONが続く場合は、ORGANIZATIONをPERSONに置き換えてください。 例:/ TITLE ORG/- > {replace to} - >/TITLE PERSON / –

関連する問題