スタンフォードNER - 電話番号を特定できません

品詞が数字のエンティティタイプPhonenumberに自分のNERを訓練しています。しかし、私が訓練したのと同じデータをテストするとき、電話番号は分類子によって識別されません。スタンフォードNER - 電話番号を特定できません

電話番号の品詞（POS）が番号（CD）なのではありますか？

2017-02-23 Deepa Huddar

このユースケースではなく、regexnerを使用します。

この文（電話番号-EXAMPLE.SQLの中に入れて）考えてみましょう：あなたは（各列はタブが分離されていることに注意）。このようなファイルregexnerルールを作る場合

You can reach the office at 555 555-5555.

を

[0-9]{3}\W[0-9]{3}-[0-9]{4}  PHONE_NUMBER MISC,NUMBER  1

そして、このコマンドを実行します。

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -regexner.mapping phone_number.rules -file phone-number-example.txt -outputFormat text

出力NERタグで電話番号を識別します。

注目すべき1つの問題。トークナイザは「555 555-5555」を1つのトークンに変換します。ルールファイルの最初の列は、トークンに一致する正規表現です。正規表現パターンは、タグを付ける各トークンと一致するパターンのスペースで区切られたリストです。

この例では、私が作成したルールには、スペースをキャプチャする「\ W」があります。私が "\ s"などを使用したときにルールは機能しませんでした。スペースを含むトークンに対して正規表現を書くことに問題があると思います。通常、トークンにはスペースが含まれていません。

「\ W」を拡張し、「\ W」は単語以外の文字を意味するため、不要な文字は除外して回避することをお勧めします。また、明らかに私が示したパターンをもっと複雑にし、さまざまな電話番号のパターンをキャプチャすることもできます。 RegexNER上

詳細情報はここで見つけることができます：答えを

http://nlp.stanford.edu/software/regexner.html

出典

2017-02-24 01:01:04 StanfordNLPHelp

Thnaksを。私はこのように試してみる。歓声:) –

スタンフォードNER - 電話番号を特定できません

答えて

関連する問題