-1

50個のジャーナルを50個のマトリックスで表し、相関がある50個のマトリックスを持つデータがあります。今、50のジャーナルがデータに基づいてどのクラスターに属するかを示すグラフをプロットしようとしています。相関係数にPythonを使用した階層的クラスタリング

1)クラスタを行うには、完全リンケージまたはワードの方法を使用することをお勧めします。 2)私はscikit-learnのドキュメントが私にとっては技術的すぎるので、クラスタリングを開始する場所で立ち往生しています 3)キックスタートを与えるのを助けてください。

は、相関係数であるとして

私のすべてのデータ

は-1と1の間に入る...事前にありがとうございました。データサンプル(50 * 50)の

例:

データ= [1 0.49319094 0.58838586 ...、0.11433441 0.6450184 0.60842821]

[0.49319094 1 0.39311674 ...、-0.00795401 [0.58838586 0.39311674 0.42944597 1. 0.68855177]

...、0.39785574 0.864322 0.68910632]

...、

【0.11433441 -0.00795401 0.39785574 ...、1 0.38623474 0.34228516]

[0.6450184 0.42944597 0.864322 ...、0.38623474 1 0.65408474]

[0.60842821 0.68855177 0.68910632 ...、0.34228516 0.65408474 1 。]]

答えて

0

Pythonはの距離がと期待しています。つまり、値が小さいほど良いです。

ワードは二乗ユークリッド用に設計されているため、相関関係が働く可能性がありますが、理論によるサポートは弱いかもしれません。完全なリンケージがサポートされます。

負の相関はどうでしょうか?どのように扱いますか?

  • 1 - abs(p)
  • 1 - p(これは、扱います(これが原因で、正方形の区との良好な選択かもしれ実装に依存する)
    1. 1 - p**2

      は:

      は、私は3つの人気の変換を知っていると信じて負の相関が悪いとします)

    メトリックをprecomputedに設定してください。 Sklearnのドキュメントを読むのに慣れてください。それはあなたが見つけることができる最も技術的ではないものの1つで、より技術的になるとよいでしょう。

  • +0

    ありがとうございます。はい、私はクラスタリングに完全なリンケージを使用する予定です。多くの実験で読んだように、私は、1-abs(p)がデータセットをクラスタリングする前に負の相関を処理する最良の方法であると考えています。 – Amitsd

    関連する問題