2017-07-17 6 views
0

Wekaのクラスタリング方法を使用して、類似した文字列パターンをグループ化しています。私は最初にwekaの "stringtowordVector"という文字列を使用し、次にクラスタリングのいくつかのメソッドを直接使用しましたが、正しい結果を得ることができません。このデータをグループ化する正しい方法を教えてください。属性を表す...Weka、クラスタリング方法を使用して同様の文字列パターンをグループ化する方法

@relation ponds 
@ATTRIBUTE LCC string 
@data 
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj 
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj 
acehiadfhjacehikkkkkkkkkkk 

実際には、このデータのすべての行が抽出された頻出パターン(データマイニングアルゴリズムによる)とそれぞれの文字交流や電子を表すが、すべて:これが私のデータのごく一部でありますパターン(すべての行)の属性数が同じではないため、類似のパターンをグループ化するにはどのようにクラスタリング方法を使用できますか?どうもありがとうございました!!! 「単語ベクトルに文字列」あなたの応答:)

デビッド

+1

これは[隠れマルコフモデル](https://en.wikipedia.org/wiki/Hidden_​​Markov_model)で表すことができるかもしれないので、Wekaを使用する必要がある場合は、[HMMWeka](http: /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html)、私はそれを自分で使ったことはありません。 – knb

答えて

0

すべての文字列が異なるので、楽しみにして彼らに別のベクトルを与えます。詳細は「単語モデルのバッグ」をお読みください。

Levenshtein距離でクラスタリングしてみることもできますが、私はむしろという便利な機能を設計しようと思います。

関連する問題