Weka、クラスタリング方法を使用して同様の文字列パターンをグループ化する方法

Wekaのクラスタリング方法を使用して、類似した文字列パターンをグループ化しています。私は最初にwekaの "stringtowordVector"という文字列を使用し、次にクラスタリングのいくつかのメソッドを直接使用しましたが、正しい結果を得ることができません。このデータをグループ化する正しい方法を教えてください。属性を表す...Weka、クラスタリング方法を使用して同様の文字列パターンをグループ化する方法

@relation ponds 
@ATTRIBUTE LCC string 
@data 
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj 
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj 
acehiadfhjacehikkkkkkkkkkk

実際には、このデータのすべての行が抽出された頻出パターン（データマイニングアルゴリズムによる）とそれぞれの文字交流や電子を表すが、すべて：これが私のデータのごく一部でありますパターン（すべての行）の属性数が同じではないため、類似のパターンをグループ化するにはどのようにクラスタリング方法を使用できますか？どうもありがとうございました！！！「単語ベクトルに文字列」あなたの応答:)

デビッド

出典

2017-07-17 david

これは[隠れマルコフモデル]（https://en.wikipedia.org/wiki/Hidden_Markov_model）で表すことができるかもしれないので、Wekaを使用する必要がある場合は、[HMMWeka]（http： /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html）、私はそれを自分で使ったことはありません。 – knb

すべての文字列が異なるので、楽しみにして彼らに別のベクトルを与えます。詳細は「単語モデルのバッグ」をお読みください。

Levenshtein距離でクラスタリングしてみることもできますが、私はむしろという便利な機能を設計しようと思います。

出典

2017-07-17 18:43:45

Weka、クラスタリング方法を使用して同様の文字列パターンをグループ化する方法

答えて

関連する問題