cluster-analysis

    0

    1答えて

    私は、サイズが37759x4096の多次元配列を持っています。 37759は、観測の数であり、各フィーチャのサイズは4096です。 これらの機能は、37759個のイメージングのために抽出した画像ののです。私はk-meansクラスタリングを実行して、同じクラスにグループ化するかどうかを確認しました。 コードスニペット: from sklearn.cluster import KMeans impo

    0

    1答えて

    私はいくつかの行(200.000以上)をクラスタ化しようとしています。それぞれに150個のバイナリ属性があります。このために、私はkモードクラスタリングを実行しましたが、今はk値がおそらく最も適切であるかを知るために、シルエットプロットとエルボーメソッドを生成しようとしています。 値が数値ではないことを考慮して、どのように計算を進めることができますか?たとえば、プロセスの総コスト(要素間の単純な一

    1

    1答えて

    Affinity Propagationを使用してword2vecクラスタをクラスタ化し、クラスタの中心語を取得します。 私の現在のコードは以下の通りです。私は300の隠れた層寸法および77は、私の語彙のサイズであるword2vec意味を理解したよう ValueError: S must be a square array (shape=(77, 300)) : model = word2vec.

    0

    1答えて

    私はgensim doc2vec(150次元の〜500Kベクトル)を使用して生成された一連のドキュメントベクトルを持っています。私はクラスタリングアルゴリズムを実行できるn * nの類似性行列を生成したい類似の文書をクラスタリングしたい。 gensim.similaritiesを使用してこのリンクhttps://github.com/RaRe-Technologies/gensim/issues/

    0

    1答えて

    私はラベル付きの垂直樹形図をプロットすることができますが、水平であるときにはラベルを追加することはできません。 マイデータは次のようになります。 を Company Industry1 Industry2 Industry3 Google 3% 5% 6% Apple 2% 6% 1% 私はデータをインポートすると、最初の列が私のラベルが含まれていますが、行はなどわずか1、2、

    -1

    2答えて

    DOB、Gender、State、pincode、transaction_id、promocodeなどの属性を持つ特定のデータセットに基づいて顧客をグループ化しようとしています。 シルエットスコアには大きな違いがあります。前のものからのクラスタリング、すなわち結果は一貫していない。 これはおそらく、データセットに対するランダムなシードのためです。アルゴリズムに属性を渡す行は次のとおりです。 km1

    -1

    1答えて

    私の問題では、n個のノードがあります。各ノードは、任意の2つのノードAおよびBについての類似関数S(A、B)によって他のすべてのノードに関連する。この関係は「Is Similar To」であり、この関係の特性は類似性-S(A、B )。各ノードは唯一つのクラスタに属し、 クラスタが全て同じである :ように私は(M等しいサイズのセットにノードをパーティション)ノードのM個のクラスタを生成しますサイズ(

    1

    1答えて

    私はPySparkでk-means法がどのように機能するかを理解したいと思います。このため が、私はこの小さな例やった:一見 In [120]: entry = [ [1,1,1],[2,2,2],[3,3,3],[4,4,4],[5,5,5],[5,5,5],[5,5,5],[1,1,1],[5,5,5]] In [121]: rdd_entry = sc.parallelize(entry

    0

    1答えて

    scikitlearnのf1_score avg micro/macro(http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)はマルチラベルデータ分類子に基づいていますが、マルチラベルクラスタリングでも同じことができるのだろうかと思っていましたか? 私が扱っているデータは、50.000 tim

    0

    1答えて

    私は、費用、注文頻度、注文の幅、各カテゴリでの購入の割合(約20点あります)に基づいて顧客グループをクラスタリングしようとしています。 これはおそらく簡単な答えでしょうが、%カ​​テゴリの購入列を標準化(平均を引いてsdで除算)する必要があるかどうかはわかりません。私は標準化をしないと、4〜5の主成分(SVDを使用)で説明した分散の約90%を得ることができますが、各列を標準化すると、同じ数の主成分