2017-02-15 7 views
0

k-meansを使用して、2つの値(0または1)の時系列データを離散化します。私の時系列データは遺伝子ごとの行列時間です(line = time、column = gene)。例:k-すべてのデータまたは各フィーチャの平均?

t\x x1 x2 x3 
1 0.122 0.324 0.723 
2 0.543 0.573 0.329 
3 0.901 0.445 0.343 
4 0.612 0.353 0.435 
5 0.192 0.233 0.023 

私の質問:私は行列のすべてのデータのためのk個のクラスタの各列ためまたはk個のクラスタを(私はk.number_columns集計列ごとにk個のクラスタを持つことになります)使用する必要がありますか?私の遺伝子は無関係です

答えて

0

どちらかといえばうまくいくかもしれません。

一度にすべての属性を離散化すると、1つのシンボル、つまり単変量系列が1つだけ得られるという利点があります。

しかし、列が独立している場合、個別に離散化すると品質が向上する可能性があります。 1次元のデータの場合、ノイズが多い場合、量子分母はk-平均(ノイズに敏感です)よりもはるかに優れている可能性があります。

+0

ありがとうございます。私はそれについて疑問を抱いていた。私は個別に離散する – realbas

関連する問題