wekaで分類するためのテキストの表現方法は？

wekaのテキスト分類の属性またはクラスを表す方法を教えてください。どのような属性を使って分類できますか？単語の頻度または単語だけ？ ARFF形式の構造はどうなりますか？その構造の例をいくつか教えていただけますか？wekaで分類するためのテキストの表現方法は？

ありがとうございます。最も簡単な選択肢の

出典

2011-11-29 Warren

一つは、のような2つのクラスの問題のためARFFファイルから開始することです。

 
@relation corpus 

@attribute text string 
@attribute class {pos,neg} 

@data 
'long text with words ... ',pos

テキストは文字列型として表現されており、このクラスは、2つの値を持つ名目です。単語ベクトル表現にテキストを変換

StringToWordVector：

次に、2つのフィルタを適用することができます。フィルターは単語ごとに属性を使用します。バイナリ/周波数表現、ステミングまたはストップワードを選択するためのパラメータを微調整することができます。最良の表現は問題に依存します。テキストが長くない場合は、通常バイナリ表現で十分です。
Reorderクラスの属性を最後の位置に移動する場合、Wekaはそこにあるとみなします。

あなたはこのウェカのwikiページにデータを変換するための詳細情報や、他のアプローチを見つけることがあります。 http://weka.wikispaces.com/Text+categorization+with+WEKA

出典

2011-11-30 14:51:26 zdepablo

WEKAでは、独自の属性を選択することができます。この例では、クラスは2つしかなく、すべてのユニークワードが属性として使用されています。属性として単語の頻度を選択すると、その単語がテキストに2回出現する場合は「2」、そうでない場合は「0」、その単語が1回しか出現しない場合は「1」が割り当てられます。

ここには、.arff形式の例があります。

@RELATION anyrelation 

@ATTRIBUTE word1 
@ATTRIBUTE word2 
... 
@ATTRIBUTE wordn 
@ATTRIBUTE class {class1, class2} 

@DATA 
1,2,....,0,class1 
0,3,....,1,class2

出典

2015-07-15 14:03:22 kaylak

wekaで分類するためのテキストの表現方法は？

答えて

関連する問題