答えて

2

これらの方法はすべて、多変量データの方が優れています。歴史的に1次元データに使用されたk-平均を除いて、これらはすべて多変量問題を考慮して設計されたであり、どれも1次元データの特定のケースに対して最適化されていません。

1次元データの場合は、カーネル密度推定を使用してください。 KDEは1dの優れたテクニックであり、統計的なサポートが強く、多次元のクラスタリングには使いにくくなります。

0

K-means clustering algorithmをご覧ください。このアルゴリズムは、1次元の特徴ベクトルをクラスタリングするのに非常に有効です。しかし、Kはクラスタリングアルゴリズムがトレーニングデータセットに異常値がある場合にうまく機能しないことを意味します。その場合、高度な機械学習アルゴリズムを使用できます。

データセットと問題文の機械学習アルゴリズム(分類、クラスタリングなど)を実装する前に、Weka Toolkitを使用して、問題のステートメントに最も適したアルゴリズムを確認することをお勧めします。 Wekaツールキットは、特定の質問に対して簡単に実装できる多数の機械学習およびデータマイニングアルゴリズムのコレクションです。問題に最適なアルゴリズムを特定したら、アルゴリズムの独自の実装を変更または書き込むことができます。それを調整することで、さらに正確さを達成することさえできます。ここからdownload wekaできます。

関連する問題