wekaのテキスト分類の属性またはクラスを表す方法を教えてください。どのような属性を使って分類できますか?単語の頻度または単語だけ? ARFF形式の構造はどうなりますか?その構造の例をいくつか教えていただけますか?wekaで分類するためのテキストの表現方法は?
ありがとうございます。最も簡単な選択肢の
wekaのテキスト分類の属性またはクラスを表す方法を教えてください。どのような属性を使って分類できますか?単語の頻度または単語だけ? ARFF形式の構造はどうなりますか?その構造の例をいくつか教えていただけますか?wekaで分類するためのテキストの表現方法は?
ありがとうございます。最も簡単な選択肢の
一つは、のような2つのクラスの問題のためARFFファイルから開始することです。
@relation corpus @attribute text string @attribute class {pos,neg} @data 'long text with words ... ',pos
テキストは文字列型として表現されており、このクラスは、2つの値を持つ名目です。単語ベクトル表現にテキストを変換
次に、2つのフィルタを適用することができます。フィルターは単語ごとに属性を使用します。バイナリ/周波数表現、ステミングまたはストップワードを選択するためのパラメータを微調整することができます。最良の表現は問題に依存します。テキストが長くない場合は、通常バイナリ表現で十分です。
あなたはこのウェカのwikiページにデータを変換するための詳細情報や、他のアプローチを見つけることがあります。 http://weka.wikispaces.com/Text+categorization+with+WEKA
WEKAでは、独自の属性を選択することができます。この例では、クラスは2つしかなく、すべてのユニークワードが属性として使用されています。属性として単語の頻度を選択すると、その単語がテキストに2回出現する場合は「2」、そうでない場合は「0」、その単語が1回しか出現しない場合は「1」が割り当てられます。
ここには、.arff形式の例があります。
@RELATION anyrelation
@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}
@DATA
1,2,....,0,class1
0,3,....,1,class2