cluster-analysis

0熱

1答えて

これは2回以上遭遇した問題であり、擬似的な解決策を念頭に置いていますが、巧妙なものではなく、多かれ少なかれモンテカルロ法です。私がやっていることは、本質的に、連続変数をカテゴリ変数に変換することです。これは、各カテゴリの応答変数の意味が大きく異なることです。私は、年齢層に対してうつ病の割合をモデル化しようとしているとしましょう。私のモデルでは、最大N個の年齢グループを設定したいと思います。各グ

0熱

1答えて

等価クラスタサイズ出力を与えるk = 2のKmeansアルゴリズム

k = 2のkmeansで等しいクラスターサイズの出力を得るための修正Lloydのアルゴリズムを使用しています。続きは擬似コードです： - Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) - Repeat below steps until convergence -

2熱

2答えて

sklearn：ポイントから最寄りのクラスタまでの距離を取得

私はDBSCANのようなクラスタリングアルゴリズムを使用しています。 -1と呼ばれる「クラスタ」を返します。これらのポイントは、クラスタの一部ではありません。これらの点については、この点がどのように異常であるかの指標のようなものを得るために、その点から最も近いクラスターまでの距離を求めたいと思います。これは可能ですか？または、この種のメトリックの代替手段はありますか？

0熱

1答えて

クラスタリングのための提案

私は2つの時系列の気象測定（すなわち、XとY）を持っています。 XとYの両方の時系列は、1年間にわたる日々の測定値を用いて構築された。 X時間系列対Y系列を散布図としてプロットし、すべての点を日付順に昇順に接続することにより、1年周期を表す閉ループが得られます。私はN個の場所で測定しているので、類似の形状を持つものを見つけるためにクラスタリングしたいN個のループ（つまり、1年周期）があります。非

-1熱

1答えて

PAMの "K"の正しい値を選択

データのマトリックスをクラスタリングするためにPAMを実行します。しかし、今私は正しい方法で "K"値を選択する方法を理解していません。これは、クラスタの最大数です。最後に、ClusGapの前にPAMを実行する必要がありますか？ありがとうございます！これらヒューリスティックで

1熱

1答えて

文章を編集距離でグループにまとめるには？

文章（テキストリスト）とそのPOSタグ（POSリスト）の大きなセット（36k文）があり、編集距離/編集番号を使用してPOSリストの要素をグループ化/クラスタ化したいとします：（例えばSentx POSタグ= [CC DT VBZ RB JJ]、Senty POSタグ= [CC DT VBZ RB JJ]）、クラスタの編集距離= 0である一方（[CCのDT VBZ RBのJJ] 、[CC DT

0熱

1答えて

それはクラスタの数を定義するためのプロットで考慮されるべき膝か肘ですか？

私はエルボー法を使って、シルエットで、データから最適な数のk個のクラスターを見つけようとしています。現在、ほとんどのパッケージでは、wss（類似点数内）またはシルエットを考慮すれば、PAM、Kmeans、クララで3を与えます。ヒューバートの分析では理想的に2つのクラスターになっています。奇妙なことだけが私には私に少し混乱させるプロットを与える以下のコマンドです。私はそれを3つのクラスターまたは4と

0熱

1答えて

分岐係数> 2の階層型クラスタリング？

Python（scipy、scikit-learnなど）で実装されているすべての階層的クラスタリング方法は、一度に2つのクラスタを分割または結合します。これにより、各ノードで分岐係数が2になります。私の目的のために、私はモデルがブランチングファクターを2よりも大きくできるようにしたいと思います。それは、クラスター間の結びつきがある状況で役に立ちます。 2より大きい分岐ファクタを持つ階層的クラスタリ

-1熱

2答えて

Python：同じ文字列の絶対数に基づくリストの3Dクラスタリング

名前の文字列を含む数百のリストがあり、それらを3Dグラフ上にクラスタリングしたい。ここでは、3つのリストの例を示します。ほとんど同じ数の文字列コンテンツを持つリストは、グラフ上の他のものに近くなるはずです。どうすればいいですか？あなたが必要と person1 = ['mike', 'alex', 'arker','locke','dave','david','ross','rachel','an

-4熱

1答えて

Rデータ出力はクラスタ中心からの距離で並べ替え

私はGoogleを使用して私の質問に対する答えを見つけようとしていましたが、それはできませんでしたのでここで質問します。私はデータをクラスタリングするためにR kmeansプロシージャを使用しています。実際にクラスタセンターに最も近い行を調べることを望みますか？関数を書き直すことなくそれを行う簡単な方法はありますか？ありがとう