2016-03-28 6 views
0

たとえば、データセットS = c(rep(4, times(1000)), rep(5, times(808)), rep(9, times(990)))のように、多くの同じ数字を含む1次元データセットがあるとします。 Rでk-meansを行う効率的な方法はありますか?実際に私のデータでは、私は約20の異なる点を持っていますが、それぞれ約100000回表示され、非常に遅く実行されます。だからもっと効率的な方法があるのだろうかと思います。k-多くの同じ点を意味するR

答えて

0

ウェイトでK平均を実装できます。これは簡単です。

しかし、IIRCに含まれるバージョンはこのように実装されていません。 flexclusterのバージョンはおそらくですが、それは純粋なRであり、ずっと遅いです。

いずれにしても、通常のkmeansバージョンと同様に、FortranまたはCで実装したいと思うでしょう。たぶん、良い実装を既に持っているいくつかのパッケージを見つけることができます。

+1

ありがとうございます。関数kmeansW {FactoClass}が見つかりました。これはうまくいきます。 –

関連する問題