2011-12-20 26 views
2

私は顧客サポートについての感情分析にNaive Bayesクラシファイアを使用しています。しかし残念ながら私は顧客サポートドメインに大きな注釈付きデータセットを持っていません。しかし、私は同じドメイン内に少量の注釈付きデータを持っています(約100の正と100の負)。私はアマゾンの商品レビューデータも設定しています。Apache Mahoutの重み付きNaive Bayesクラシファイア

mahoutを使用して重み付けされたナイーブベイズ分類器を実装することができます。そのため、アマゾン製品レビューデータの小さなセットのカスタマーサポートデータと小さなウェイトに大きな重みを付けることができます。上記の重み付けされたデータセットのトレーニングは、私が推測する精度を大幅に向上させるでしょう。親切にも同じことを私に助けてください。

答えて

1

本当に簡単なアプローチの1つはオーバーサンプリングです。つまり、トレーニングデータで顧客サポートの例を複数回繰り返すだけです。

同じ問題ではありませんが、クラスの不均衡に使用されているアプローチを調べることで、さらなるアイデアを得ることができます。特にオーバサンプリング(前述のように)およびアンダーサンプリングを行う。

+0

私は似たようなものを試しています。小規模のトレーニングデータを使用して、サンプルデータセットを分類し、それをランダムにチェックしてトレーニングセットに追加します。 – Greenhorn

関連する問題