2016-07-06 4 views
0

私は29変数のデータセットを持っています。このデータセットから、6つの異なるK平均クラスターを作るために特定の9変数を使用したいと思います。 Rでクラスタを作る際に関連する変数を指定する方法。最初にデータを除外し、そのデータを使用してクラスタを作成する必要がありますか?Kで入力変数を与える方法はクラスタリングを意味しますR

ありがとうございます!

答えて

0

n行(サンプル数)と29列(各サンプルの変数数)の行列があるとします。さて、あなたがする必要があるのは、各変数がフィーチャーである「フィーチャー選択」です。フィーチャ選択を使用すると、データの変動性に寄与するフィーチャを特定することができます。しかし、9つの機能しか必要としない理由を伝えることができればうれしいでしょう。とにかく、特徴選択について、これは役に立つかもしれません: http://www.r-bloggers.com/introduction-to-feature-selection-for-bioinformaticians-using-r-correlation-matrix-filters-pca-backward-selection/

究極の目的は、データをクラスタ化することであるならば、私はあなたではなく最初にPCAを行い、データの次元を削減しようとすることを提案すると、後のことができます。クラスタリングを行う。ここでも、6つのクラスタだけが必要な理由を知らせれば、いいでしょう。

+0

ありがとう@Manish。 1つのツールStatisticaを使用してクラスタリングを行い、Rを使用して結果をシミュレートしようとしています。すでに6つのクラスタ(既に定義済み)を作成する必要があり、クラスタリングにとって重要な変数がわかっています。私はクラスターを作る際に変数の選択を行う方法を知りたいだけです。 – Mohit

+0

私の理解から、変数の選択とクラスタリングは2つの独立したタスクです。だから、私はそれらを混ぜないように勧めます。 –

+0

Okありがとう、Manishありがとう – Mohit

0

には、使用する機能が含まれているサブセットデータフレームを作成します。

これらの列でのみk-meansを実行します。

索引を元の(完全な)データに簡単に戻すことができます。

+0

ありがとうAnony、これは私が今でもやっていることです。私はちょうどそれが正しいアプローチかどうかを確かめたいと思っていました。 – Mohit

関連する問題