クラシファイアがネガティブコメントの同じ分布で訓練されるべきである場合、ほとんどのドキュメントが負であるタグ付きデータセットからセンチメント分類子を訓練する場合、〜95%と言うでしょうか?そうでない場合は、データセットを「正規化」するための他のオプションは何ですか?センチメント分析トレーニングデータを均等に配信する必要がありますか?
0
A
答えて
0
あなたはどのタイプの分類子を持っているかは言いませんが、一般的にトレーニングセットの分布を正規化する必要はありません。しかし、通常はデータが多いほど良いですが、過度の詰まりを防ぐためには常にブラインドテストを行うべきです。
あなたのケースでは、否定的なコメントのための強力な分類子があり、サンプルサイズが非常に大きい場合を除いて、弱い陽性分類器です。あなたのサンプルサイズが十分に大きい場合は、とにかくあなたのネガティブデータを過度にフィットさせ始めるかもしれないので、それは本当に重要ではありません。
要するに、データセットの実際のアルゴリズムとサイズ、データセット内の多様性を知らなくても、確かに言うことはできません。
あなたの最善の策は、トレーニングデータの10%のようなものを(ランダムに)彫刻し、90%のサブセットで訓練した後の分類子の仕組みを見てみることです。
関連する問題
- 1. 画像分類器のトレーニングデータ内の各クラスのサイズは等しい必要がありますか?
- 2. センチメント分析
- 3. 均等配分アルゴリズム
- 4. rapidminerとセンチメント分析
- 5. センチメント分析のセグメンテーションパターン
- 6. div内の要素を互いに隣接して均等に分配する方法はありますか?
- 7. 列に要素を均等に配分する
- 8. Seq2seqセンチメント分析を実装するTensorFlow
- 9. CoreNLPセンチメント分析をスピードアップ
- 10. rpart:トレーニングデータが必要です
- 11. ESMEは配信レポートを送信する必要がありますか?
- 12. 元のコンテンツが分析された場合は、elasticsearch copy_toを再分析する必要がありますか?
- 13. コンテナに値を均等に分配するアルゴリズムですか?
- 14. アスペクトベースのセンチメント分析ライブラリ
- 15. んNLTKは、センチメント分析
- 16. トレーニングデータ用にテキスト全体を必要としないエンティティ認識器分類器アルゴリズムがありますか?
- 17. 数値配列をアップスケーリングし、値を均等に分配する
- 18. カフカパーティションでデータを均等に分配する分割手法
- 19. テーブルを縦に分割する必要がありますか?
- 20. ViewPagerでタブを均等に配置する方法はありますか?
- 21. 配列を均等に分配するロジック
- 22. UIStackView - 中央から均等にビューを配信する
- 23. Cssは3つの列にtr要素を均等に分配します
- 24. MediaPlayerをサービスに配置する必要がありますか?
- 25. コールバックをレールアプリケーションに配置する必要がありますか?
- 26. カスタムコントロールをApp_Codeに配置する必要がありますか?
- 27. UITearchViewにUISearchBarを配置する必要がありますか?
- 28. JQuery、JSON文字列を配列に分割する必要があります
- 29. ajax成功コールバックでPHP配列を解析する必要があります
- 30. xmlタグの複数の要素に均等にパーセンテージを配分する
したがって、重要な質問は実際にはどの分類アルゴリズムが強くスケーリングされたデータに適しているのか、95%/ 5%の範囲ですか?あなたはあなたの答えでこの側面に取り組むことができますか?少なくともnltk(Naive Bayes、最大エントロピー、パーセプトロンなど)によって提供されるアルゴリズムの中で、 – alexis