k-すべてのデータまたは各フィーチャの平均？

k-meansを使用して、2つの値（0または1）の時系列データを離散化します。私の時系列データは遺伝子ごとの行列時間です（line = time、column = gene）。例：k-すべてのデータまたは各フィーチャの平均？

t\x x1 x2 x3 
1 0.122 0.324 0.723 
2 0.543 0.573 0.329 
3 0.901 0.445 0.343 
4 0.612 0.353 0.435 
5 0.192 0.233 0.023

私の質問：私は行列のすべてのデータのためのk個のクラスタの各列ためまたはk個のクラスタを（私はk.number_columns集計列ごとにk個のクラスタを持つことになります）使用する必要がありますか？私の遺伝子は無関係です

2017-02-15 realbas

どちらかといえばうまくいくかもしれません。

一度にすべての属性を離散化すると、1つのシンボル、つまり単変量系列が1つだけ得られるという利点があります。

しかし、列が独立している場合、個別に離散化すると品質が向上する可能性があります。 1次元のデータの場合、ノイズが多い場合、量子分母はk-平均（ノイズに敏感です）よりもはるかに優れている可能性があります。

2017-02-15 08:29:19

ありがとうございます。私はそれについて疑問を抱いていた。私は個別に離散する – realbas

答えて