品詞が数字のエンティティタイプPhonenumberに自分のNERを訓練しています。しかし、私が訓練したのと同じデータをテストするとき、電話番号は分類子によって識別されません。 スタンフォードNER - 電話番号を特定できません
電話番号の品詞(POS)が番号(CD)なのではありますか?
品詞が数字のエンティティタイプPhonenumberに自分のNERを訓練しています。しかし、私が訓練したのと同じデータをテストするとき、電話番号は分類子によって識別されません。 スタンフォードNER - 電話番号を特定できません
電話番号の品詞(POS)が番号(CD)なのではありますか?
このユースケースではなく、regexner
を使用します。
この文(電話番号-EXAMPLE.SQLの中に入れて)考えてみましょう:あなたは(各列はタブが分離されていることに注意)。このようなファイルregexner
ルールを作る場合
You can reach the office at 555 555-5555.
を
[0-9]{3}\W[0-9]{3}-[0-9]{4} PHONE_NUMBER MISC,NUMBER 1
そして、このコマンドを実行します。
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -regexner.mapping phone_number.rules -file phone-number-example.txt -outputFormat text
出力NERタグで電話番号を識別します。
注目すべき1つの問題。トークナイザは「555 555-5555」を1つのトークンに変換します。ルールファイルの最初の列は、トークンに一致する正規表現です。正規表現パターンは、タグを付ける各トークンと一致するパターンのスペースで区切られたリストです。
この例では、私が作成したルールには、スペースをキャプチャする「\ W」があります。私が "\ s"などを使用したときにルールは機能しませんでした。スペースを含むトークンに対して正規表現を書くことに問題があると思います。通常、トークンにはスペースが含まれていません。
「\ W」を拡張し、「\ W」は単語以外の文字を意味するため、不要な文字は除外して回避することをお勧めします。また、明らかに私が示したパターンをもっと複雑にし、さまざまな電話番号のパターンをキャプチャすることもできます。 RegexNER上
詳細情報はここで見つけることができます:答えを
Thnaksを。私はこのように試してみる。歓声:) –