スタンフォードNLP POSタガーは非常に簡単なフレーズに問題がありますか？

Stanford NLP Parser/POS Taggerを使用してアプリケーションで一貫性のない動作の例が見つかりました。オンラインでhttp://nlp.stanford.edu:8080/corenlp/processを複製することができました。私は、バージョン3.60使用しています：スタンフォードNLP POSタガーは非常に簡単なフレーズに問題がありますか？

としてタグ付けされている個の

動詞は、私は言語はかなり曖昧であることを知っているが、私は、私もこれらの単純なフレーズをこのライブラリを信頼できるかどうかを知りたいと思います。私は何かが間違っているかどうかも知りたいです。私はそれぞれの問題の事例を単独で、あるいは別々の文章で試してみたが、問題はそのまま残っていた。

これは正常な動作です：

すべてのヘルプは歓迎です！ありがとう

フルストップの前にスペースを挿入しますか？ – alvas

@alvas私はちょうど試したが、それはフルストップに関連する問題の動作を変更しない –

あなたは間違って何もしていません。どのツールをどれだけ信頼するかは自分自身で決めることを歓迎しますが、経験的に/統計的に訓練されたパーサーでも同様の問題が発生すると思われます。あなたの問題に関しては、

期間はモデル構築の他のトークンと同じように扱われるため、選択された解析に影響を与える可能性があります。
実際に英語ではあまりにも多くのあいまいさがあります（他のすべての人間言語にあるように）。で終わるフォームを動詞、名詞（名詞または名詞）または形容詞として解釈するかどうかの質問は、です。共通のものパーサーは必ずしも正しいとは限りません。
悪意のある選択の点では、パーサのトレーニングデータと試行している文章との間の使用/ドメインの不一致が反映されることがよくあります。訓練データは、主にニュース記事です - それについての最後の千年のニュース記事 - 私たちはいくつかの他のデータを混在させて、それを追加することもあります。だから、：それは驚くことではないにフラグを立てるためのJJを選択する傾向があるので、

2016-03-20 23:08:56

よく説明された答えマニング教授に感謝:) - 私は、短いフレーズ結果がより予測可能だと仮定していたトレーニングデータが自分のデータと一致しないかのように。パーサーを自分で訓練する方法を調査します。私が読んでいるように多くの努力を必要とするプロセスですか？ –

異なる結果は私が狂気運転していました1つのテキストで1つのタグが詰まることもあります。 https://github.com/StealthyK/TaggerTimer

2017-07-28 23:16:26 stealthyK

答えて