2017-09-24 9 views
0

まずミューチュアルファンドのこのデータフレームをオフにプロットしたが、ここに私のデータフレームがある:トラブル

Date 2012-09-04 00:00:00 2012-09-05 00:00:00 2012-09-06 00:00:00 2012-09-07 00:00:00 2012-09-10 00:00:00 2012-09-11 00:00:00 2012-09-12 00:00:00 2012-09-13 00:00:00 2012-09-14 00:00:00 2012-09-17 00:00:00 ... 2017-08-22 00:00:00 2017-08-23 00:00:00 2017-08-24 00:00:00 2017-08-25 00:00:00 2017-08-28 00:00:00 2017-08-29 00:00:00 2017-08-30 00:00:00 2017-08-31 00:00:00 2017-09-01 00:00:00 Type 
AABTX 9.73 9.73 9.83 9.86 9.83 9.86 9.86 9.96 9.98 9.96 ... 11.44 11.45 11.44 11.46 11.46 11.47 11.47 11.51 11.52 Hybrid 
AACTX 9.66 9.65 9.77 9.81 9.78 9.81 9.82 9.92 9.95 9.93 ... 12.32 12.32 12.31 12.33 12.34 12.34 12.35 12.40 12.41 Hybrid 
AADTX 9.71 9.70 9.85 9.90 9.86 9.89 9.91 10.02 10.07 10.05 ... 13.05 13.04 13.03 13.05 13.06 13.06 13.08 13.14 13.15 Hybrid 
AAETX 9.92 9.91 10.07 10.13 10.08 10.12 10.14 10.26 10.32 10.29 ... 13.84 13.84 13.82 13.85 13.86 13.86 13.89 13.96 13.98 Hybrid 
AAFTX 9.85 9.84 10.01 10.06 10.01 10.05 10.07 10.20 10.26 10.23 ... 14.09 14.08 14.07 14.09 14.11 14.11 14.15 14.24 14.26 Hybrid 

読み少し難しいですが、基本的に、これらは単にいくつかの投資信託の価格を開閉していること(638)は最後の列のTypeラベル。私はこれらのすべてを1つのプロットにプロットし、各プロットがどのようなタイプであるかを凡例に表示したいと思います。

私は、必要な可能性のあるクラスタの数を確認したいと思います。データを視覚化するのは初めてのことですが、他の推奨事項がある場合は、自由にそれを提案してください。

はまた、私の最初の試みで、私が試した:

parallel_coordinates(closing_data, 'Type', alpha=0.2, colormap=dark2_cmap) 
plt.show() 

それはちょうど黒いブロブとして表示し、いくつかの研究の後、私はそれがうまく機能の大規模な数を処理しないことがわかりました。

+0

関連するコードを投稿することをお勧めします。 – caot

答えて

2

タイムスタンプはインデックスとして自然に使用されるため、個々の時系列をdf.AABTXまたはdf['AABTX']として扱うことができるので、データフレームを転記することをお勧めします。

時系列の数が少なければ、df.plot()を試してみることもできましたが、かなり大きかった場合は、最初に混乱することに驚いてはいけません。

データのサブセットをプロットするようにしてください。ただし、列名ではなくインデックスに時刻があることを確認してください。

1

silhouette analysisのようなものを探しているかもしれませんが、これはscikit-learnマシンラーニングライブラリに実装されています。それはあなたのデータのために考慮するクラスタの最適な数を見つけることができます。