2017-07-17 6 views
0

私はデータセットからモデルを生成し、cohen_kappaスコアと予測精度に基づいて最適なアルゴリズムを見つけようとしました。私は得られるデータの種類がわからないので、さまざまなアルゴリズムに対して実行します。そのため、κと精度を比較して最良のアルゴリズムを見つけることができます。 私のデータは10倍にクロスバリデーションされています。分類の予測が間違った結果をもたらすscikit learn

ランダムフォレスト、デシジョンツリー、SGDClassifier、パーセプトロン、パッシブアグレッシブ、ロジスティック回帰、グラディエントブースト、Naive Bayes、KNeighborsの比較を行いました。私例えば

、私はランダムフォレストは0.94

私の分類は今ときRESPONSETIME> 200

のような条件での2クラス分類した=カッパ= 1かつ正確に分類するための最良のアルゴリズムとして得ました私は予測を実行しようとします、いくつかの従属変数の値について、私は正しい予測を得ますが、いくつかは完全に間違っています。

私はすべての異なるアルゴリズムを試しましたが、予測結果は非常に矛盾しています。

ありがとうございました

+0

データをアップロードできますか? – sera

+0

私が持っているサンプルデータの1つが添付されています。しかし、これは0.97の精度でランダムフォレストに対してκ= 0を持つ。 – newToML

+0

申し訳ありませんが私の応答を完了する前に入力します。私が持っているサンプルデータの1つが添付されています。しかし、これは0.97の精度でランダムフォレストに対してκ= 0を持つ。モデルを生成するために使用したサンプルデータファイルをアタッチします。私はκ値が1であったデータセットを再生成しようとしています。このデータセットでは、1つのデータセット入力に対して予測値が正しいが、異なる入力に対しては誤った予測値が得られます。 3つのarffファイルをすべて添付してください。 – newToML

答えて

0

間違った予測の機能値をよく調べる必要があります。あなたのデータセットに矛盾するデータがあるかもしれません。たとえば、このような観測値とラベルがあれば、試したことのいかんにかかわらず、アルゴリズムをクロスバリデーションしたりスタックしたりしても、決して100%の精度を得ることはありません。 75%の精度がここで最高のスコアです。

0 => 0 
0 => 0 
0 => 0 
0 => 1 <- this sample have wrong label 
1 => 1 
1 => 1 
1 => 1 
1 => 0 <- this sample have wrong label 
関連する問題