私は一連のレビューをして、WEKAで使用するためにそれらをARFFフォーマットに変換しようとしています。残念ながら、私はフォーマットの仕組みを完全に誤解しているか、またはすべての可能な単語に対して属性を持っていなければなりません。誰かがより良い方法を知っていますか、理想的にはARFFファイルのサンプルを持っていますか?自然言語処理のためのARFF
9
A
答えて
3
が動作するようにしばらく時間がかかったが、このinput.arffと:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
そして、このコマンド:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
次が生成されます。
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
4
あなたの場合プレインテキストファイルと異なるフォルダ(あなたの場合は正と負の両方)でレビューを保存してください。あなたはTextDirectoryLoaderを使うことができます。
これは、WekaのKnowledgeFlowアプリケーションまたはコマンドラインから確認できます。もっと詳しい情報はこちら:http://weka.wikispaces.com/ARFF+files+from+Text+Collections
+0
ファイルの形式は、txtファイルの行ごとに1つのインスタンス(例:レビュー)ですか? –
+0
いいえ、1行に複数の行を含めることができます – zdepablo
関連する問題
'{0 1,2,4 1,6 1,7 1}'のコンマで区切られた '0 1'のようなタプルは分かりますか?私はこれが従来の.arff形式とは異なると思います。 WEKAで意味のある結果が得られましたか? – Rhubarb
これはかなり古い投稿ですが、タプルの最初の数字は@属性数で、2番目の数字は文字列の出現回数です。結果の意味を理解している限り、ある程度はあなたが望むものを意味すると思う。 –