Wekaのクラスタリング方法を使用して、類似した文字列パターンをグループ化しています。私は最初にwekaの "stringtowordVector"という文字列を使用し、次にクラスタリングのいくつかのメソッドを直接使用しましたが、正しい結果を得ることができません。このデータをグループ化する正しい方法を教えてください。属性を表す...Weka、クラスタリング方法を使用して同様の文字列パターンをグループ化する方法
@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk
実際には、このデータのすべての行が抽出された頻出パターン(データマイニングアルゴリズムによる)とそれぞれの文字交流や電子を表すが、すべて:これが私のデータのごく一部でありますパターン(すべての行)の属性数が同じではないため、類似のパターンをグループ化するにはどのようにクラスタリング方法を使用できますか?どうもありがとうございました!!! 「単語ベクトルに文字列」あなたの応答:)
デビッド
これは[隠れマルコフモデル](https://en.wikipedia.org/wiki/Hidden_Markov_model)で表すことができるかもしれないので、Wekaを使用する必要がある場合は、[HMMWeka](http: /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html)、私はそれを自分で使ったことはありません。 – knb