私は約データセットを持っています。主にロック/ミネラルのジオメトリを記述する22の属性を持つ4800行、および3つの異なるクラス。高い数値の次元データのベストラーニングモデルですか? (Rapidminerを使用)
k = 7、数値測定 - > Camberra Distanceをパラメータセットとしたk-nnモデルのクロスバリデーションを試しました。私は82.53%と0.673カッパのパフォーマンスを得ました。その結果がデータセットを代表していますか?私は82%が大丈夫です。
これを行う前に、デシジョンテーブルを使って属性の最適なサブセットを評価しました。そのために6つの属性がありました。
問題は、インスタンスベースのk-nnのような、そのようなモデルからはまだ習得していないということです。 knnからもう洞察を得ることはできますか? Rapidminerの高次元空間でクラスターをどのように視覚化するのか分かりませんが、何とか可能ですか? 私はデータ上で意思決定ツリーを試しましたが、私はあまりにも多くの分岐(300程度)を持っていましたが、それはあまりにも面倒でした。問題は、すべての数値属性はほぼ同じ平均値と分布を持っています。意味のある属性の...
理想的には、スタッフはデータに関する何かを学びたいと思っていますが、私の印象は、そのデータの意味がわかりません。 "Blackbox"ニューラルネット、SVM、その他のインスタンスベースのモデル... どうすればいいですか?