Apache Mahoutの重み付きNaive Bayesクラシファイア

私は顧客サポートについての感情分析にNaive Bayesクラシファイアを使用しています。しかし残念ながら私は顧客サポートドメインに大きな注釈付きデータセットを持っていません。しかし、私は同じドメイン内に少量の注釈付きデータを持っています（約100の正と100の負）。私はアマゾンの商品レビューデータも設定しています。Apache Mahoutの重み付きNaive Bayesクラシファイア

mahoutを使用して重み付けされたナイーブベイズ分類器を実装することができます。そのため、アマゾン製品レビューデータの小さなセットのカスタマーサポートデータと小さなウェイトに大きな重みを付けることができます。上記の重み付けされたデータセットのトレーニングは、私が推測する精度を大幅に向上させるでしょう。親切にも同じことを私に助けてください。

出典

2011-12-20 Greenhorn

本当に簡単なアプローチの1つはオーバーサンプリングです。つまり、トレーニングデータで顧客サポートの例を複数回繰り返すだけです。

同じ問題ではありませんが、クラスの不均衡に使用されているアプローチを調べることで、さらなるアイデアを得ることができます。特にオーバサンプリング（前述のように）およびアンダーサンプリングを行う。

出典

2011-12-28 07:11:11

私は似たようなものを試しています。小規模のトレーニングデータを使用して、サンプルデータセットを分類し、それをランダムにチェックしてトレーニングセットに追加します。 – Greenhorn

Apache Mahoutの重み付きNaive Bayesクラシファイア

答えて

関連する問題