2017-06-13 10 views
-1

私は6つのtxtファイルを持っていますが、同じドメインについては異なる件名(それぞれのファイルには異なる件名の質問が含まれています)があります。私の目標は、類似性をよりよく把握するためにこれらのファイルをクラスタリングすることです被験者のテキストクラスタリング

私はすでにストップワードを削除し、ステミングプロセスを適用し、TF-IDFスコアを適用しました(データフレームの形式で取得した結果、200ワード(列)および6件のデータフレーム行))が、私は..事前に助けを

感謝..私のクラスタリング手法の性能を評価する方法を最終的クラスタリング法として、関数kmeansまたはDBSCANを適用する方法を知っているのに苦労Mと

+0

あなたはどのライブラリを使用していますか?これまでに何を試しましたか? –

+0

評価については、既にデータを被験者で分割しているため、クラスタ割り当てを元の被験者(クラスラベル)と比較するだけです。 –

+0

私はストップワードのstop_wordsからget_stop_words、特殊文字の抽出、nltk.stem.snowballからのFrenchStemmer、ドキュメントのステミングを行うためのTF-IDF関数を使用して、異なるドキュメントの各単語の重みを取得しました。 kは文書間の余弦行列(cosine_similarity matrix)上にあることを意味する(しかし、k個の手段をTF-IDF行列に適用すべきかどうかはわからない[列の各単語と行の各文書])。 –

答えて

0

付き6人の被験者では、クラスタリングは統計的に十分に確立されていない。 k-meansとDBSCANの両方がそれよりもはるかに大きなサンプルサイズを必要とします。

おそらく最も意味のあるアプローチは、デンドログラムを使用することです。

+0

私は、各文書の余弦行列を他のものに計算しました。それをデンドグラムに当てはめた方が最適でしょうか? –