2012-04-14 11 views
0

私はPythonでDBSCANクラスタリングアルゴリズムを実装するコードを書いています。 私のデータセットは14kユーザーで構成され、各ユーザーは10個の機能で表されます。 Min_samplesとεの値を入力として正確に何を保持するかを決めることができません どうすればよいですか? 類似度はユークリッド距離です(したがって、決定するのがさらに難しくなります)。DBSCANアルゴリズムへの入力値を決定する

+0

データセットのユークリッド距離を評価します。それは動作しますか?賢明な類似性閾値は何ですか?次に、このしきい値をDBSCANのイプシロンとして使用します。 –

+0

私のデータセットでユークリッド距離をどのように評価するのですか? – Maxwell

+0

@ Anony-Mousse:私はこれを考えていました:ユークリッド距離を0-1の範囲内で正規化することは理にかなっていますか?距離は10k +のようなものに上がり、閾値を決めるのが難しくなります。しかし、私はそれを正常化する方法がわかりません。何か案は? – Maxwell

答えて

0

DBSCANは、そのパラメータを見積もるのが難しいことがよくあります。

OPTICSアルゴリズムについて考えましたか?この場合最小クラスタサイズに対応するMin_samplesだけが必要です。

DBSCANの場合、過去に試行錯誤しています。値を試してみて、何が起こるかを見てください。従うべき一般的なルールは、データセットにノイズが多い場合は、より大きな値を持つ必要があり、ディメンション数(この場合は10)にも関連していることです。

関連する問題