最新ニュースを検出するためにツイートをクラスタリングしようとしています。私はクラスタリング手法としてDBSCANを使用しています。私は良い値のεとmin_sample_pointに到達することができません。つぶやきをクラスタ化するために、私は2000個のつぶやきのバッチを作成し、それにクラスタリングアルゴリズムを適用しています。 feautureの抽出のために、私はscikit.learnパッケージのtf-idfベクトル化を使用しています。ベクトル化器のパラメータとしてmax_df = 0.6およびmin_df = 5およびバイグラムを使用する。大部分の結果は、ほとんどのつぶやきを異常値として表示したり、多数のランダムなつぶやきを単一のクラスタに表示したりします。私は使用した値の例 - eps = 0.2とmin_samples = 8。また、クラスタ(k)の数がこの問題について予見できず、クラスタの形状が球形ではない場合があるので、K平均アルゴリズムを避けています。TweetクラスタリングのためのDBSCAN Algoのパラメータを決定する
-1
A
答えて
0
ニュース速報では、クラスタリングよりはるかに優れたアプローチがあります。
テキストデータ、特にTwitterは信じられないほど騒々しいです。多くのつぶやきはちょうど完全なナンセンスです。しかし、主な問題は、が短すぎることです。です。数語しかない場合は、距離を測定するためのデータが少なすぎます。 "車が壁に当たった。"と "壁の通りの車"は非常に似た言葉(TF-IDFに基づいて)を持っていますが、それらは非常に異なる意味を持っています。
私はこれがうまくいかないことに驚くことはありません。実際には "失敗"するクラスタリングではなく、距離機能です。
+0
代替距離測定を提案できますか?私は89%の精度を示している多項式ナイーブベイズを使用してニュースツイートだけを取得します..クラスタリングはこれらのニュースのつぶやきでのみ行われています。 – Walker894
+0
私はそれがデータの問題ではなく、距離測定だと思う。 –
関連する問題
- 1. データマイニング:DBSCAN algoによる名目属性のクラスタリング
- 2. 自動クラスタリングのDBSCANとOPTICS
- 3. DBSCANクラスタリングの遠隔ポイント
- 4. DBSCANアルゴリズムへの入力値を決定する
- 5. scikit-learnでクラスタリングするクラスタメンバー/要素を取得するDBSCAN
- 6. DBSCANによるクラスタリング中のメモリエラー(大行列演算)
- 7. DBSCAN追加機能を使用したクラスタリング
- 8. DBSCANを使用したクラスタリングは驚くほど遅い
- 9. PHP PHPのためのTweetスクリプト4.4.9
- 10. scikit-DBSCANクラスタリング(x.y)座標点でエラーが発生する
- 11. クラスタリングのための提案
- 12. Tweetボタンのパラメータ: 'related'パラメータは何をしますか?
- 13. 要約小説のためのAlgo:教師あり学習
- 14. 警告のためのGrafanaクラスタリング
- 15. 意味クラスタリングのためのGloVeメソッド
- 16. クラスタリングにDBSCANアルゴリズムを使用するデータセットでminpts = 4が最適な設定ですか?
- 17. 階層型クラスタリングのためのELKI GUIクラスタリングの結果がありません
- 18. スクラップされたコンテンツのカテゴリを決定するためのアルゴリズム
- 19. R:グレープロットをクラスタリングするためのggplotの高さ調整
- 20. Neo4j因果vs HAクラスタリングの決定方法
- 21. ELKI dbscanの例
- 22. dbscanのcluster_selection_methodエラー
- 23. 不定記事を決定するためのJavascriptライブラリ
- 24. scikit-learnのDBSCANアルゴリズムの入力行列とパラメータ
- 25. 月の月の数を決定するためのSQLステートメント
- 26. マクロを使ったタイプジェネリックプログラミング:タイプを決定するためのトリック?
- 27. 変更された日付を決定するためのバッチファイル
- 28. EMアルゴリズムを使用して、1つのデータセットでDBSCANのパラメータ(eps、minpts)を決定する方法はありますか?
- 29. テキスト分類のための決定境界をプロットする
- 30. 特定の仮想メソッドのためにパラメータを追加する
私は自分の問題を解決したようでした。問題は、私のデータソースは、特定の期間内に合計のツイートの約1%しか提供しないTwitterのストリーミングAPIでした。主に非常に異なっています。min_sampleポイント= 1を守ることで問題が解決され、約0.5〜0.8のepsが良好です。今度はクラスターを考える価値があります。サイズ1のクラスターを無視できます。あなたの問題に応じて、それを価値あるクラスタとしてマークするクラスタサイズepsを選択する鍵は、クラスタリングに入力された疎行列を見ることにあります。 – Walker894