cluster-analysis

-3熱

2答えて

ポイントを4クラス分欲しいとします。各クラスタは、所与のx-y座標の組内に存在することができる。クラスタ内の各ポイントはランダムに生成されたポイントです。これらのクラスタは、私のK-Meansクラスタリングの問題の入力として機能します。 Pythonを使ってどうすればいいですか？

0熱

1答えて

k-は、Pythonでクラスタリングが正しくないことを意味します。

k-meansを使用してデータセットをクラスタ化しようとしています。アルゴリズムを1回だけ実行すると、ランダムクラスタが返されますが、複数の繰り返しを試すと0だけが返されます。私が使用している行列は、50k x 140の2進行列です。各行はユーザーを表し、各列は項目を表します。 def clusterizator(matriz, nDeClusters, it=10): # matrix, num

0熱

1答えて

どのようにDavies Bouldinをrapidminerのクラスタリング方法から計算するのですか？

k-meansなしでデータをクラスタリングしたい。たとえば、私はDBSCANを使用してクラスタ化するか、またはベクトルクラスタリングをサポートします。 Davies Bouldinメトリックでクラスタリングのパフォーマンスを評価する必要がありますが、DBSCANまたはサポートベクタークラスタリングのRapidminerでDavies Bouldinを計算する方法がわかりません。私を助けてください

0熱

1答えて

ELKIクラスタ抽出HiSC HiCO

私は自分のデータセットでHiCOとHiSCクラスタリングアルゴリズムを作成しています。私が誤解していないならば、アルゴリズムは第1ステップでクラスタのための関連する部分空間を定義するために異なるアプローチを使用し、第2ステップではクラスタリングのためにOPTICSを適用する。私はアルゴリズムを実行した後、クラスタの順序ファイルしか取得していません。そこからクラスタを抽出する方法はありますか？例え

-1熱

1答えて

テキストクラスタリング

私は6つのtxtファイルを持っていますが、同じドメインについては異なる件名（それぞれのファイルには異なる件名の質問が含まれています）があります。私の目標は、類似性をよりよく把握するためにこれらのファイルをクラスタリングすることです被験者の私はすでにストップワードを削除し、ステミングプロセスを適用し、TF-IDFスコアを適用しました（データフレームの形式で取得した結果、200ワード（列）および6件

-1熱

2答えて

クラスタリングのための距離行列のインポート方法R

私は200個のモデルと、2つのモデルのそれぞれの分子距離を比較したテキストファイルを持っています。これらの二つのモデルを比較した場合、対応する分子距離を最初の数字は最初のモデルであり、第二の数が第2のモデルであり、 1 2 1.2323 1 3 6.4862 1 4 4.4789 1 5 3.6476 . . ダウン200のすべての方法、および第3の数：これは、このようになります。

1熱

1答えて

dist（）の複雑さは何ですか？

私はdistの機能をRで使いました。私はその時間の複雑さを疑問視しています。私は、階層的クラスタリングが時間複雑さがN^2*logNであることを知っています。そして、階層的クラスタリングは、階層的クラスタリングを適用する前に、距離行列が必要であることをRの中で以下のように2つの部分から構成されている。私はこれがN^2の複雑さを取ると思いますか？マトリックスXがN行P列を有する場合

0熱

1答えて

単語ベクトルのクラスタリングとプロット - R

私はpython（とR）と単語ベクトルに新しいので、これを視覚化する方法を学ぶ次のステップを達成する方法について固執しました。私はPythonで作業しようとしていますが、これをRにも適用することは可能です。私はどこまで来たのか、どこに行くのかを簡単に説明します。私はそのユーザーに関連付けられた10の映画のリストを受け取るユーザーのリストを持っています。私はリストを取得し、出力csvファイルを作成

-1熱

2答えて

K-meansは、proc fastclus（SAS）による観察によるクラスタリングを意味します。

8 clustersに集団をクラスタリングする必要があります。私はproc fastclusとk-meansメソッドを使用しています（クラスター間の分散を最小限に抑えるため）。観察はスコアを表すので、クラスタリングプロセスの後でさえ、それらは順序付けられたままであることが重要です。私はこのように気づいた： proc sort data=input.population; by score; r

-5熱

1答えて

k-meansのグリッド検索

私はいくつかのクエリをクラスタリングするための線形方程式を持っており、ハイパーパラメータを調整したいと思います。今私は "k-means"クラスタリングに "グリッド検索"を使うことができますか？それともk-meansに使えないのですか？私の研究では、私のデータを80-20の比率に分け、データの80％がモデルを訓練し、20％がそれをテストしました。あなたは確実に予測値の品質を評価することができ