2017-01-18 14 views
0

クラシファイアがネガティブコメントの同じ分布で訓練されるべきである場合、ほとんどのドキュメントが負であるタグ付きデータセットからセンチメント分類子を訓練する場合、〜95%と言うでしょうか?そうでない場合は、データセットを「正規化」するための他のオプションは何ですか?センチメント分析トレーニングデータを均等に配信する必要がありますか?

答えて

0

あなたはどのタイプの分類子を持っているかは言いませんが、一般的にトレーニングセットの分布を正規化する必要はありません。しかし、通常はデータが多いほど良いですが、過度の詰まりを防ぐためには常にブラインドテストを行うべきです。

あなたのケースでは、否定的なコメントのための強力な分類子があり、サンプルサイズが非常に大きい場合を除いて、弱い陽性分類器です。あなたのサンプルサイズが十分に大きい場合は、とにかくあなたのネガティブデータを過度にフィットさせ始めるかもしれないので、それは本当に重要ではありません。

要するに、データセットの実際のアルゴリズムとサイズ、データセット内の多様性を知らなくても、確かに言うことはできません。

あなたの最善の策は、トレーニングデータの10%のようなものを(ランダムに)彫刻し、90%のサブセットで訓練した後の分類子の仕組みを見てみることです。

+0

したがって、重要な質問は実際にはどの分類アルゴリズムが強くスケーリングされたデータに適しているのか、95%/ 5%の範囲ですか?あなたはあなたの答えでこの側面に取り組むことができますか?少なくともnltk(Naive Bayes、最大エントロピー、パーセプトロンなど)によって提供されるアルゴリズムの中で、 – alexis

関連する問題