私はこのアルゴリズムを理解しようとしていますが、適切な文書と説明を得ることはできません。誰かが私がこのクラスタリングアルゴリズムを理解するのを助けてくれますか?リーダークラスタリングアルゴリズムの説明
答えて
他人に役立つように投稿する。
リーダーアルゴリズムは、大きなデータセットをクラスタ化するために一般的に使用される増分クラスタリングアルゴリズムです。このアルゴリズムは順序に依存し、データセットがアルゴリズムに提供される順序に基づいて異なるクラスターを形成することがあります。アルゴリズムは、以下のステップからなる。
手順1:最初のデータ項目P1をクラスタC1に割り当てます。このデータセットは、クラスターC1のリーダーになります。
ステップ2:次のデータ項目、たとえばP2に移動し、リーダーP1からの距離を計算します。 P2とリーダーP1との間の距離がユーザ指定の閾値(t)よりも小さい場合、データ点P2がこのクラスタ(クラスタC1)に割り当てられる。リーダーP1とデータ項目P2との間の距離がユーザ指定の閾値tよりも大きい場合、新しいクラスタC2を形成し、この新しいクラスタにP2を割り当てる。 P2はクラスタC2のリーダーになります。
ステップ3:残りのすべてのデータ項目について、データポイントとクラスタのリーダー間の距離が計算されます。データ項目とリーダーのいずれかの間の距離がユーザー指定のしきい値より小さい場合、データポイントはそのクラスターに割り当てられます。ただし、データポイントとクラスタリーダーのいずれかの距離がユーザー指定のしきい値を超える場合、新しいクラスターが作成され、その特定のデータポイントがそのクラスターに割り当てられ、クラスターのリーダーとみなされます。
手順4:すべてのデータ項目がクラスタに割り当てられるまで手順3を繰り返します。
理論を明確にする例。
はパターンが
A (1, 1),B(1, 2), C(2, 2), D(6, 2), E(7, 2), F(6, 6), G(7, 6)
に配置されている検討データが順A, B, C, D, E, F and G
で処理すること、およびユーザ指定の閾値は3
ことT
う。 A(1, 1)
は、処理された最初のデータ項目であり、クラスタC1
に割り当てられ、C1
のリーダーにもなります。
B
の2番目のポイントでは、リーダーからの距離がA
と計算されます。ユークリッド距離の式(Distance(a, b)) = √(x - a)² + (y - b)²
)、我々は√(1 - 1)² + (1 - 2)² = 1
として距離が取得を使用 が、これはそうB
は、第三の点C(2, 2)
リーダーA(1, 1)
の間の距離のクラスタ1
に割り当てられ、ユーザ指定のしきい値3
未満でありますクラスタC1
およびポイントC
が計算されます。ユークリッドの公式を使用すると、距離はであり、これは 閾値よりも小さいので、C
もC1
に割り当てられます。 AとDの間の距離(√(1 - 6)2 +(1 - 2)²= 5.099)がユーザー指定のしきい値3を超えているため、新しいクラスタが作成され、DがクラスタC2
に割り当てられます。 Dはこのクラスタのリーダーです。
は点E
について、A
(C1
のリーダー)とD
(C2
のリーダー)からの距離を算出します。 Distance(D,E)
がユーザ指定のしきい値3
次に小さいので、A
からFまでの距離(C1のリーダー)(C2のリーダー)7.07
とD
からであるクラスタ2
に割り当てられ4
あります。 これらの距離はいずれもしきい値を超えているため、F
が新しいクラスタC3
に入れられ、このクラスタのリーダーになります。 については、G
については、Distance(A,G)
,Distance(D,G)
およびDistance(F,G)
はそれぞれ7.81
,6.41
および1
である。 Distance(F,G)
ので、ユーザ少ないし、データが異なる順序で処理されていた場合は、クラスタ 指導者が異なる-も、クラスターは変えることができたであろうことを。見ることができ、クラスタ3
に割り当てられている3
に指定されています A
およびB
の前にC
が発生した場合、C
はC1
のリーダーになります。以前にD
が発生し、の距離がC
とD
の間にある場合は、C1
になります。この は、A
がリーダーである場合は発生しません。したがって、リーダーアルゴリズムは順序に依存し、処理の順序に基づいて異なる結果を与えることがあります。
私がradius = say 1kmと指定したとしても。私はセントロイドから10キロメートルのポイントを得ています。なぜこの半径制約を厳密に実施するアルゴリズムはありますか?半径の制約を厳密に適用する方法はありますか? –
このアルゴリズムはCRANのR: leaderClusterで優れた実装をしています。 誰かがPythonの実装を知っていますか? scipy.cluster.hierarchy.leadersはリーダーアルゴリズムではありません!それは別のものです – Amitai
そのパフォーマンスと正確さに関する追加のコメント。私はそれがK-手段よりもかなり速いことを理解しています。なぜなら、最適化部分が関与していないからです。しかし、データセットをクラスターに分類することがどれほど効果的か – Abhi
- 1. veins/sumo「hello world」の説明の説明
- 2. 説明方法説明rmarkdown vignette
- 3. 説明
- 4. 説明
- 5. 説明
- 6. 説明
- 7. 説明
- 8. 説明
- 9. 説明
- 10. ArrayListの説明
- 11. プロローグコードの説明
- 12. ダンジョンゲームソリューションの説明
- 13. インパラクエリメタデータの説明
- 14. PowerShellの - 説明
- 15. ハートビートの説明
- 16. INFORMATION_SCHEMA.RIGHTSの説明
- 17. デバイスリグレッションテストの説明
- 18. dFdxの説明
- 19. Funcの説明
- 20. VHDLの説明
- 21. ダイナミックプログラミングソリューションの説明
- 22. concatMapの説明
- 23. テンソルフローエンコーダーの説明
- 24. オフセットアルゴリズムの説明
- 25. アリストテレスナンバーパズルの説明
- 26. スウィフトシンタックスの説明
- 27. SQLの説明
- 28. ダイナミックメタの説明
- 29. ハイレベルの説明
- 30. フィールドの説明
参考資料が見つかった場合はお気軽に –
はい、見つけました。投稿されます。私に1日か2日を与えてください。 – Rndp13