2017-12-21 20 views
0

私は250の時系列を持っており、それらをクラスタリングしてどの時系列が多かれ少なかれ同じ振る舞いをするかを見ていきます。しかし、私の問題は、私がGoogleとStackOverFlowで検索したものが何であれ、すべてのタイムシリーズを一緒にマージする必要があるかどうかを示す例が見つかりませんでしたか?それらを別々の変数に保つことは可能ですか?入力に関する説明は役に立ちます。クラスタリングアルゴリズムへの入力

  • 私は、Python 3.6でプログラミングしていますし、クラスタリングのために、私はSCI-キットを使用するには、各私の時間のシリーズは1列
+1

[this](https://stackoverflow.com/questions/32106092/clustering-uni-variate-time-series-using-sklearn)お手伝いできますか? – user32185

+1

Googleのテンソルフローのtimeseries分類を試してください – user32185

答えて

1

SciKitのクラスタリングの入力フォーマットとパンダのデータフレームであるライブラリー

  • を学びますメソッドはメソッドによって異なります。メソッドの名前をthe list of Classesにクリックし、クラスのfitメソッドの説明までスクロールします。これはクラスタリングを行うものです。ほとんどの方法では、例えばK-meansのように、データは形状の2D配列(n_samples、n_features)の形式でなければなりません。あなたのために、サンプルの数は250で、フィーチャの数は時系列の長さです(すべて同じ長さでなければなりません)。

    しかし、すべての値が時間パラメータの考え方を失って別の機能として扱われるため、2D配列を入力として使用することには注意が必要です。ある系列が別の系列の単なる変化である場合、それはまったく異なるものとして扱われるかもしれない。

    いくつかのSciKitクラスタリング方法では、250×250の距離マトリックス(2つの異なるシリーズの違いを測定する)または親和性/類似性マトリックス(それがどれほど類似しているかを測定する)を事前計算することができます。これは実際のデータの代わりに渡すことができます。行列は二重ループで計算することができ、250×250はそれほど悪くない。これらの代わりに、元のデータの正方行列を取ることができます方法は以下のとおりです。

    私は(そのコンピューティングのために使用されるtime-series similarity measuresにいくつかの研究を行うことをお勧め正方行列)に変換する。

  • 関連する問題