データセットに対してクラスタ分析を実行しようとしていますが、適切な洞察を見つけることができません。例:私は100のリソース(列)の中から50の変数(行)のセットを持っています。各リソースには、強度としての変数と弱点としての変数があります。私は、強さを1、弱さを2としました。各リソースは強度として10変数しかなく、弱さとして5変数になる可能性があるので、残りの変数はゼロとしてマークされます。今、共通の長所と短所を共有するリソースのクラスターを見つけたいと思います。ダミーコード付き変数Rを使用したクラスタ分析
私は、リソースの行になるようにデータセットを入れ替えることにより、階層的クラスタリングとK-手段を使用していました。 k-meansプロットは、異なるクラスタ間でオーバーラップが多すぎるため、階層的クラスタリングのみを使用していました。私は、クラスタアルゴリズムが異なって応答するかどうかを調べるために、1(強度)を+10と2(弱さ)を-10に置き換えましたが、依然としてそれほど助けにはなりません。
この方法論を改善するためのすべてのインプットとこれを扱う別の方法はありますか?
多くの感謝!
ありがとうございました。私はそれを1本の強さ、2弱さ、0-識別なしで識別しダミーコードする必要があります。 1を+10、2を-10に置き換えると、階層的クラスタリングアルゴリズムの意味が変わりますか?また、どのリソースがどのクラスタにあるのかを見たいので、どのように次元数を減らし(100リソース)、クラスタリングすることができますか?そして、クラスター全体の強さと弱さの負荷を見つけるために、私はそのクラスター内の変数の頻度の平均を使用しました。 10リソースからなるクラスタ1の例.5リソースでX強度が検出された場合、ロードは0.5です。 – Ankur
バイナリ変数を2つ含めることを考えましたか?最初の変数:1 - 強さ0 - else; 2番目の変数1-弱さ0- else。両方のバイナリ変数に0を指定すると識別はできません。 – Ferdi
縮小データセットのPCAおよびプロットクラスタを使用して寸法を減らすことができます。変数を解釈するだけです。 +10と-10の値を代入しても、より良い結果は得られません。それは単に解釈をより困難にする。 – Ferdi