2016-09-06 9 views
3

最近、言語APIを使用して、作業プロジェクトの感想予測を収集しました。私は約1,300のラベルなし文書を持っていました。私たちはNLTKのツールを最初に使用しました。これは辞書の各単語の極性推定値を持つ用語の辞書に基づいていました。私はAPIに目を向けると、予測を見直した後、APIはNLTKよりはるかに優れた結果を出しました。新しいGoogle Natural言語API

エンジニアはおそらく予測エンジンの詳細を公開したくないと思っていますが、どのように高いレベルで動作するのか不思議です。誰かが私を啓発したり正しい方向に向けることができたら、私はそれを感謝します。たとえば、「ニューラルネットワークを使用し、数十億の観測で訓練された」は合理的な答えになります。

私はこれを作業プロジェクトに使用していますが、なぜNLTKからAPIに切り替えたのかを簡単に正当化できるようにしたいと考えています(改善された結果は自分自身で話すべきですが、 「うまくいく、どうやって動くの?」)。

答えて

3

言語APIは、(Penn Treebankのような)公開データとGoogleの言語学者が注釈を付けた独自のデータの組み合わせで訓練された最先端の機械学習システムのパイプラインです。

NLTKのようなものと比較してパフォーマンスが向上したのは、トレーニングのためのより多くのデータとニューラルネットワークに限定されない最先端の機械学習アルゴリズムの組み合わせによるものです。アルゴリズムのいくつかを議論

関連リンク:

関連する問題