cluster-analysis

0熱

1答えて

私は250万行（および7または8関連する列）の大きなデータフレームを持っており、NBClust Rパッケージを使用して、データのクラスタ数を把握しようとしています持っている。私はこのために190万行しか使用していません。その多くの行はまだNBClustと私のPCのためにあまりにも多いので、私はdplyr::sample_fracとデータフレームのランダムなサブセクションを取ると思っていた。データの

1熱

1答えて

クラスタリングを使用したセントロイド間の距離に基づくデータバンドの特定R

クラスタリングを使用してデータセット内のバンドを識別しようとしています。私は、サプライチェーンのデータで働いているので、私のデータは次のようになります。関連する列が各あたりの価格です。問題は、この製品が10個ではなく100個のケースであることが間違っていることがあるため、各単価は（2,0.25,3）のようになります。私は、追加のクラスタの平均価格が既存のすべてのクラスタの2倍以上であれば、クラ

1熱

1答えて

2つの行のパンダデータフレームの組み合わせ

各データポイントがpd.Dataframeの行として格納されるすべてのデータポイントペア間の距離の計算を必要とするクラスタリングアルゴリズムを実装しています。計算全体がO（n^2）の順に大きくなります。これを効率的に行うには慎重でなければなりません。私がしたいことを効率的に行う方法は何ですか？私はデータフレーム内の4つのデータポイントを持っていると言う： #<inputtable tin>

0熱

1答えて

kmodesクラスタのサイズは、実行ごとにかなり変化します

rでkmodesクラスタリングを使用しています。私は、異なるクラスタでもシード set.seed(11) c1 = kmodes(data, 3, iter.max = 1000, weighted = FALSE) を設定した後、私は..私はkmodesを使用しています理解しても、再び同じコードをruningて後に変更していない出力を探していますサイズを取得以下のコードを実行するたびに最初

0熱

1答えて

コメント集のトップmトピック

私はあるコメント集を持っており、それぞれのコメントがトピックについて議論しています。私はこれらのコメントで議論されたトップのトピックを把握したい。また、私はこれらのコメントをオンラインで受け取っています（つまり、私は一言で全体のコメントを取得するのではなく、これらのコメントを1つずつ処理する必要があります）。私はWord2Vecを使って特徴抽出を行い、k-means（クラスタはトピックに対応する）

1熱

1答えて

高密度グラフをクラスター化する方法

私はクラスター化したいと考えているこの高密度グラフを持っていますが、このシナリオではどのアルゴリズムが最適かは疑問でした。かなりの量のサブグループを生成したいと思います。私はPythonのライブラリNetworkxを使ってグラフを生成しています。

0熱

1答えて

ガウス混合モデルを使用して波長別に画像を分割するにはどうすればよいですか？

私は池（草、端に沿って岩、水）のイメージを持っています。画像を草、岩、水に分けるために、教師なし分類器としてGMMを使用したいと思います。イメージは、形状（800,800,4）のnumpy配列の形をしています。各ピクセルには4つの波長の強度データが含まれています。例えば、ピクセルx = 1 y = 1は、波長[450,500,600,700]に対応する強度データ[1000,2000,1500,4

-3熱

1答えて

クラスタの品質を調べる方法は？

私はK平均クラスタリングアルゴリズムを試しています。私は手作業で（よくプログラムで）定義された機能を使ってクラスターを作成しようとしている、私が手にしているムービーレビューのデータセットを持っています。クラスタリングの前に使用するkの価値を事前に知ることは不可能であり、自分が望むクラスターの数は確信できません。私はクラスタを取得して、同じクラスタ内のエンティティの以前に観察されなかった類似性を