0

私は約データセットを持っています。主にロック/ミネラルのジオメトリを記述する22の属性を持つ4800行、および3つの異なるクラス。高い数値の次元データのベストラーニングモデルですか? (Rapidminerを使用)

k = 7、数値測定 - > Camberra Distanceをパラメータセットとしたk-nnモデルのクロスバリデーションを試しました。私は82.53%と0.673カッパのパフォーマンスを得ました。その結果がデータセットを代表していますか?私は82%が大丈夫です。

これを行う前に、デシジョンテーブルを使って属性の最適なサブセットを評価しました。そのために6つの属性がありました。

問題は、インスタンスベースのk-nnのような、そのようなモデルからはまだ習得していないということです。 knnからもう洞察を得ることはできますか? Rapidminerの高次元空間でクラスターをどのように視覚化するのか分かりませんが、何とか可能ですか? 私はデータ上で意思決定ツリーを試しましたが、私はあまりにも多くの分岐(300程度)を持っていましたが、それはあまりにも面倒でした。問題は、すべての数値属性はほぼ同じ平均値と分布を持っています。意味のある属性の...

理想的には、スタッフはデータに関する何かを学びたいと思っていますが、私の印象は、そのデータの意味がわかりません。 "Blackbox"ニューラルネット、SVM、その他のインスタンスベースのモデル... どうすればいいですか?

答えて

0

機械学習の世界へようこそ!これは古典的な実世界のように聞こえる:我々は確固たる結論を出したいが、データ行は協力しない。 :-)

あなたの目標は漠然としています:「何かを学ぶ」?私はあなたが調査していることを意味し、3つのクラスの中で定量的な差別を見つけようとしています。

まず、プリンシパルコンポーネント分析(PCA)をお勧めします。手作りのデシジョンテーブルではなく、自動マトリックス操作でこれらの属性の一部を削除できるかどうかを確認してください。私は、乱雑な支店は不幸な要因の選択によるものと期待しています。意思決定木は、過度のフィッティングで非常に難しい作業をします。 :-)

データセットの分離はどのくらい明確ですか?すでにKnnを使用しているので、ギャップのある密度の高いクラスターがあることを期待しています。もしそうなら、おそらくスペクトルクラスタリングが役立つだろう。これらの方法は、たとえクラスタ形状が球形でなくても、クラスタ間のギャップに基づいてデータを分類するのに優れている。解釈は、固有ベクトルを読み取って値の意味を解釈できるスタッフがいることに依存します。

マルチクラスSVMをお試しください。 3つのクラスから始めますが、3つのクラスが出現するまで必要に応じて増やしてください。 (ときどき小さな外れ値クラスを1つ取得し、次に2つの主要な外れ値クラスを組み合わせることもあります)。結果として生じるカーネル関数とギャップの配置は、データについて何かを教えることができます。

特に、機能がガウス分布またはベルヌーイ分布に由来することがわかっている場合は、Naive Bayesファミリーを試してください。

総合的なアプローチとして、ニューラルネットを試してみましょう。しかし、何かを使ってニューロンや体重を視覚化してください。人間の視覚野を関係で遊ばせれば微妙な関係を抽出するのに役立つ。

関連する問題