cluster-analysis

    0

    1答えて

    私は250万行(および7または8関連する列)の大きなデータフレームを持っており、NBClust Rパッケージを使用して、データのクラスタ数を把握しようとしています持っている。私はこのために190万行しか使用していません。その多くの行はまだNBClustと私のPCのためにあまりにも多いので、私はdplyr::sample_fracとデータフレームのランダムなサブセクションを取ると思っていた。データの

    1

    1答えて

    クラスタリングを使用してデータセット内のバンドを識別しようとしています。私は、サプライチェーンのデータで働いているので、私のデータは次のようになります。 関連する列が各あたりの価格です。 問題は、この製品が10個ではなく100個のケースであることが間違っていることがあるため、各単価は(2,0.25,3)のようになります。私は、追加のクラスタの平均価格が既存のすべてのクラスタの2倍以上であれば、クラ

    1

    1答えて

    各データポイントがpd.Dataframeの行として格納されるすべてのデータポイントペア間の距離の計算を必要とするクラスタリングアルゴリズムを実装しています。計算全体がO(n^2)の順に大きくなります。これを効率的に行うには慎重でなければなりません。 私がしたいことを効率的に行う方法は何ですか? 私はデータフレーム内の4つのデータポイントを持っていると言う: #<inputtable tin>

    0

    1答えて

    rでkmodesクラスタリングを使用しています。私は、異なるクラスタでもシード set.seed(11) c1 = kmodes(data, 3, iter.max = 1000, weighted = FALSE) を設定した後、私は..私はkmodesを使用しています理解しても、再び同じコードをruningて後に変更していない出力を探していますサイズを取得以下のコードを実行するたびに最初

    0

    1答えて

    私はあるコメント集を持っており、それぞれのコメントがトピックについて議論しています。私はこれらのコメントで議論されたトップのトピックを把握したい。また、私はこれらのコメントをオンラインで受け取っています(つまり、私は一言で全体のコメントを取得するのではなく、これらのコメントを1つずつ処理する必要があります)。私はWord2Vecを使って特徴抽出を行い、k-means(クラスタはトピックに対応する)

    1

    1答えて

    私はクラスター化したいと考えているこの高密度グラフを持っていますが、このシナリオではどのアルゴリズムが最適かは疑問でした。かなりの量のサブグループを生成したいと思います。 私はPythonのライブラリNetworkxを使ってグラフを生成しています。

    0

    1答えて

    私は池(草、端に沿って岩、水)のイメージを持っています。画像を草、岩、水に分けるために、教師なし分類器としてGMMを使用したいと思います。 イメージは、形状(800,800,4)のnumpy配列の形をしています。各ピクセルには4つの波長の強度データが含まれています。例えば、ピクセルx = 1 y = 1は、波長[450,500,600,700]に対応する強度データ[1000,2000,1500,4

    -3

    1答えて

    私はK平均クラスタリングアルゴリズムを試しています。 私は手作業で(よくプログラムで)定義された機能を使ってクラスターを作成しようとしている、私が手にしているムービーレビューのデータセットを持っています。 クラスタリングの前に使用するkの価値を事前に知ることは不可能であり、自分が望むクラスターの数は確信できません。私はクラスタを取得して、同じクラスタ内のエンティティの以前に観察されなかった類似性を