私はテキストマイニングの初心者です、ここに私の状況です。 私は単語['car'、 'dog'、 'puppy'、 'vehicle']のリストを持っているとします。kグループに単語をクラスタリングしたいと思います。出力を[car '、' vehicle ']、[' dog '、' puppy ']]。 まず、各ペアワイズ語の類似度スコアを計算して、4x4行列(この場合)Mを得る。ここで、Mijは単語iとjの類似度スコアである。 単語を数値データに変換した後、別のクラスタリングライブラリ(sklearnなど)を使用するか、それを自分で実装して単語クラスタを取得します。Pythonでクラスタリングする単語のリスト
このアプローチは意味がありますか?また、kの値をどうやって決めるのですか?もっと重要なことに、私は別のクラスタリング手法が存在することを知っています。私は単語クラスタリングのためにk-meansかk-medoidsを使うべきかどうか考えていますか?
どのような類似性を計算しようとしていますか?キャラクターの類似性(例えば「ロック」は「時計」に非常に似ている)、または単語の意味の類似性(例えば「犬」は「子犬」に非常に似ている)? –
@Marcel Pおそらく単語の意味の類似性 –
あなたはそれをどのように計算しますか? 「意味」の式はありません。 –