dbscan

5熱

2答えて

私はコサインメトリックでscikit-learnライブラリのDBSCANアルゴリズムを使用しようとしましたが、エラーが発生しました。コードの行は、Xがcsr_matrixある db = DBSCAN(eps=1, min_samples=2, metric='cosine').fit(X) あります。ドキュメントは、このメトリックを使用することが可能であることを述べているものの、アルゴリ

0熱

1答えて

sklearn.cluster DBSCANでsample_weightsを割り当てる方法は？

私はDBSCANを使用してRGB画像のピクセル値のクラスタを探しています。 db = DBSCAN(eps=0.3, min_samples=10).fit(X) 、XはN x 3行列です。 Xの各行には、RGBトリプレットが含まれています。ここでは、イメージの中心からの距離の関数としてピクセル値にウェイトを割り当てたいと考えています。そして、これは私が使用している機能である：私はこれをしなか

-2熱

1答えて

クラスタ外部検証

DBSCANとOPTICSで位置クラスタリングを実行するためにELKIを使用しています。私のデータセットには30人の参加者が含まれていますが、ラベルは付けられていませんが、私は参加者の頻繁な場所として一対の座標（例：自宅、仕事など）を持っています。私は、これらの座標のペアが（各人物の）どのクラスターに属しているか知りたいと思います。 1つの方法は、最小距離閾値を使用してクラスタのそれぞれに対して

0熱

1答えて

DBSCANアルゴリズムへの入力値を決定する

私はPythonでDBSCANクラスタリングアルゴリズムを実装するコードを書いています。私のデータセットは14kユーザーで構成され、各ユーザーは10個の機能で表されます。 Min_samplesとεの値を入力として正確に何を保持するかを決めることができませんどうすればよいですか？類似度はユークリッド距離です（したがって、決定するのがさらに難しくなります）。

7熱

1答えて

pythonとscikit-learnのDBSCAN：make_blobsが返す整数のラボはどういうものですか？

私はscikit（http://scikit-learn.org/0.13/auto_examples/cluster/plot_dbscan.html）によって実装されたDBSCANアルゴリズムの例を理解しようとしています。私は X = my_own_dataとライン X, labels_true = make_blobs(n_samples=750, centers=centers, clu

-1熱

1答えて

TweetクラスタリングのためのDBSCAN Algoのパラメータを決定する

最新ニュースを検出するためにツイートをクラスタリングしようとしています。私はクラスタリング手法としてDBSCANを使用しています。私は良い値のεとmin_sample_pointに到達することができません。つぶやきをクラスタ化するために、私は2000個のつぶやきのバッチを作成し、それにクラスタリングアルゴリズムを適用しています。 feautureの抽出のために、私はscikit.learnパッケー

0熱

1答えて

scikit-learnのDBSCANアルゴリズムの入力行列とパラメータ

私はscikit-learnを使っていて、映画に興味を持っている人をクラスタ化しようとしています。私は異なる列（各映画に1つ）と行を持つ疎な行列を作成します。ユーザーが映画を好きだった場合、指定されたセルについては0または1になります。 sparse_matrix = numpy.zeros(shape=(len(list_user), len(list_movie))) for id in l

0熱

2答えて

クラスタリングにDBSCANアルゴリズムを使用するデータセットでminpts = 4が最適な設定ですか？

DBSCAN "https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf"の記事では、データポイントをクラスタリングするためにDBSCANが使用されているデータセットのminpts値は4でなければならないことを説明しています。どんなEps値でも最高の結果を得られますか？

0熱

1答えて

3 D以上interet/Visualizeでデータセットをクラスタリングするにはどうすればよいですか？

は、私は、このようなデータセット、クラスタリングアルゴリズムを選択することを持っている場合の例 X: 1 2 3 4 5 Y: .9 .91 .92 .93 .94 Z: 20 36 999 211 M. 4000 3456 1 0 を与えることができますか？また、クラスタリング後の結果をどのように解釈するのか？意味：4Dデータセットをクラスタに供給する方法。私は、プロット可能な2Dのインター

15熱

3答えて

scikit-learn DBSCANメモリの使用

UPDATED：最後に、私の大きなデータセットをクラスタリングするために使用したソリューションは、以下のAnony-Mousseの提案でした。つまり、ELKIのDBSCANのインプリメンテーションを使って、scikit-learnではなくクラスタリングを行います。これは、コマンドラインから実行し、適切なインデックスを付けて、数時間以内にこのタスクを実行します。 GUIと小さなサンプルのデータセット