2016-03-20 11 views
1

Stanford NLP Parser/POS Taggerを使用してアプリケーションで一貫性のない動作の例が見つかりました。オンラインでhttp://nlp.stanford.edu:8080/corenlp/processを複製することができました。私は、バージョン3.60使用しています:スタンフォードNLP POSタガーは非常に簡単なフレーズに問題がありますか?

  • ドット矛盾の問題の有無にかかわらず::ここで

    を私がこれまでに発見した3つの問題があること

NLP Stanford POS Tagger with and without dot

  • 動詞名詞として見つかる enter image description here

  • 形容詞 enter image description here

としてタグ付けされている個の

  • 動詞は、私は言語はかなり曖昧であることを知っているが、私は、私もこれらの単純なフレーズをこのライブラリを信頼できるかどうかを知りたいと思います。私は何かが間違っているかどうかも知りたいです。私はそれぞれの問題の事例を単独で、あるいは別々の文章で試してみたが、問題はそのまま残っていた。

    これは正常な動作です:

    enter image description here

    すべてのヘルプは歓迎です!ありがとう

  • +0

    フルストップの前にスペースを挿入しますか? – alvas

    +0

    @alvas私はちょうど試したが、それはフルストップに関連する問題の動作を変更しない –

    答えて

    2

    あなたは間違って何もしていません。どのツールをどれだけ信頼するかは自分自身で決めることを歓迎しますが、経験的に/統計的に訓練されたパーサーでも同様の問題が発生すると思われます。あなたの問題に関しては、

    • 期間はモデル構築の他のトークンと同じように扱われるため、選択された解析に影響を与える可能性があります。
    • 実際に英語ではあまりにも多くのあいまいさがあります(他のすべての人間言語にあるように)。で終わるフォームを動詞、名詞(名詞または名詞)または形容詞として解釈するかどうかの質問は、です。共通のものパーサーは必ずしも正しいとは限りません。
    • 悪意のある選択の点では、パーサのトレーニングデータと試行している文章との間の使用/ドメインの不一致が反映されることがよくあります。訓練データは、主にニュース記事です - それについての最後の千年のニュース記事 - 私たちはいくつかの他のデータを混在させて、それを追加することもあります。だから、:それは驚くことではないにフラグを立てるためのJJを選択する傾向があるので、

      • 動詞としてフラグを立てるの使用、現代のインターネット開発者の使用に共通する、以来、トレーニングデータに全く発生しませんそれはトレーニングデータの唯一のケースの分析です。を飲んニュース記事
      • 未成年者の飲酒の議論、コーヒーを飲む飲酒を駆動する、と、ちょうどより一般名詞であります私は最終的に早く、通常(スタンフォードNLP、NLTK 3.2.1とセナ) それを使用するために3つに対して結果を比較するために何かを書いた健全性チェックのためのように、POSのタガーから
    +0

    よく説明された答えマニング教授に感謝:) - 私は、短いフレーズ結果がより予測可能だと仮定していたトレーニングデータが自分のデータと一致しないかのように。パーサーを自分で訓練する方法を調査します。私が読んでいるように多くの努力を必要とするプロセスですか? –

    関連する問題