2017-05-18 11 views
0

sklearnのk_meansはテキスト間の距離や類似性の測定値ではないユークリッド距離を使用するだけなので、テキストクラスタリング '?k_meansを使用する以外のPythonでのテキストクラスタリング

+2

scikit-learnで実装されているクラスタリング方法のいずれかを使用できます。[here](http://scikit-learn.org/stable/modules/clustering.html)を参照してください。たとえば、[階層的クラスタリングアルゴリズム](http://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering)を使用して、 – patrick

答えて

0

他のメトリックを使用する場合は、K-Medoidsを選択するとよいでしょう。それはK-Meansに似ていますが、更新の段階で平均の代わりに中央値を使用します。これは、任意の距離メトリックの使用を可能にする。

this scikit-learnプルリクエストで便利で使いやすい実装が利用可能です。

関連する問題