2017-02-23 26 views
0

品詞が数字のエンティティタイプPhonenumberに自分のNERを訓練しています。しかし、私が訓練したのと同じデータをテストするとき、電話番号は分類子によって識別されません。 enter image description hereスタンフォードNER - 電話番号を特定できません

電話番号の品詞(POS)が番号(CD)なのではありますか?

答えて

0

このユースケースではなく、regexnerを使用します。

この文(電話番号-EXAMPLE.SQLの中に入れて)考えてみましょう:あなたは(各列はタブが分離されていることに注意)。このようなファイルregexnerルールを作る場合

You can reach the office at 555 555-5555.

[0-9]{3}\W[0-9]{3}-[0-9]{4}  PHONE_NUMBER MISC,NUMBER  1 

そして、このコマンドを実行します。

java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -regexner.mapping phone_number.rules -file phone-number-example.txt -outputFormat text 

出力NERタグで電話番号を識別します。

注目すべき1つの問題。トークナイザは「555 555-5555」を1つのトークンに変換します。ルールファイルの最初の列は、トークンに一致する正規表現です。正規表現パターンは、タグを付ける各トークンと一致するパターンのスペースで区切られたリストです。

この例では、私が作成したルールには、スペースをキャプチャする「\ W」があります。私が "\ s"などを使用したときにルールは機能しませんでした。スペースを含むトークンに対して正規表現を書くことに問題があると思います。通常、トークンにはスペースが含まれていません。

「\ W」を拡張し、「\ W」は単語以外の文字を意味するため、不要な文字は除外して回避することをお勧めします。また、明らかに私が示したパターンをもっと複雑にし、さまざまな電話番号のパターンをキャプチャすることもできます。 RegexNER上

詳細情報はここで見つけることができます:答えを

http://nlp.stanford.edu/software/regexner.html

+0

Thnaksを。私はこのように試してみる。歓声:) –

関連する問題