2016-10-23 26 views
0

DBSCANアルゴリズムでは、外れ値はノイズとして破棄されることがありますが、アプリケーションによっては、これらのノイズの多いデータが、より定期的に発生するものよりも面白くなる可能性があります。どうして ?DBSCANアルゴリズム外れ値

答えて

1

異常値としてマークされたポイントは、それ自体破棄されません。クラスタ内にないポイントです。それでもクラスター化されていない点の集合を調べ、それらを解釈しようとすることができます。

DBSCANは、いくつのクラスタが存在するか、どのような形状であるかを知らなくてもクラスタを提供するように設計されています。それは、十分に密な領域の開始点からクラスタを反復的に拡張することによってこれを行います。外れ値は、sparsleyの人口領域にある点(epsおよびminPointsパラメータで定義されているとおり)です。

実際には、これらの異常値を含まないパラメータを選択するには注意が必要です。それらがクラスタに含まれている場合、それらはしばしばクラスタ間の橋渡しとして作用し、それらを分析的に役に立たないブロブに併合させる。

1

クラスタポイントは、と同様にです。彼らは同じ性質を持ち、同じ物語を伝え、重複するかもしれません。

ノイズポイント(DBSCANは実際の異常値を検出できません!)は、すべてクラスタ化されないデータポイントです。 はクラスタ化されていないため、2つ目のデータポイントがの通常のデータであると考えることさえあります。

実際の異常値(エラーまたは特に興味深いオブジェクト)を検出するには、特殊な異常検出アルゴリズムを使用します。

関連する問題