-1

私はいくつかのバケツを持っています。各バケットには多くのタグ(文字列)が含まれています。類似度や重複に基づいてバケットを一緒にクラスタリングするにはどうすればよいですか?文字列のバケットをどのようにクラスタ化できますか?

など。

バケットA: 'ダチョウ'、 'スズメ'、 'ハチドリ'、 'ゼブラ'、 'ブルージェイ'

バケットB: 'バナナ'、 'スイカ'、 'グレープ'、 'にんじん'

バケツC: 'セロリ'、 'レタス'、 'ほうれん草'、 'バナナ'、 'にんじん'

バケツD: 'すずめ'、 '犬'、 '猫'、 'ライオン'、「象'、' horse '

この非常に非常に小さな例では、B + Cはバナナ&人参のために1つのクラスタを作成し、AとDはそれぞれb eをクラスター化するには十分ではないため、クラスター化してください。

答えて

1

階層型クラスタリングを使用するJaccardなどの設定ベースの距離を使用できます。

関連する問題