私は約70k文のコーパスにword2vecモデルを訓練しました。それぞれの文章には、「abc-2011-100」のような一意のキーワードが含まれ、その後にそれを説明する特定の機能が続きます。さて、私はabc idごとに分類しなければなりません。 abc-2011-100はabc_category_1に属しています。 abc-2999-0000はabc_category_20に属します。カテゴリには、複数のabc idが割り当てられます。私は約70000のユニークなabc IDを持っています。この70000のうち、5000はすでに適切に分類されています。今では、すでに分類されている5000 IDの分類精度をチェックしたいと思います。そのためには、トレーニングデータとして80%、正確度をチェックするために20%を取ります。すべてのabc idをd次元のベクトルとして記述できます。この情報を使って、この分類作業を実行するにはどうすればwekaを使用できますか?どんな入力も高く評価してください。wekaを使ってword2vecを分類する
0
A
答えて
0
hereを参照してください。
まず、あなたのCSV/arffで読む:
import weka.core.Instances;
import java.io.BufferedReader;
import java.io.FileReader;
...
BufferedReader reader = new BufferedReader(new FileReader("yourData.arff"));
Instances data = new Instances(reader);
reader.close();
// setting class attribute
data.setClassIndex(data.numAttributes() - 1); // This is category for you
その後
import weka.classifiers.trees.J48;
...
String[] options = new String[1];
options[0] = "-U"; // unpruned tree
J48 tree = new J48(); // new instance of tree
tree.setOptions(options); // set the options
tree.buildClassifier(data); // build classifier
ランクロスバリデーション学習者に
import weka.classifiers.Evaluation;
import java.util.Random;
...
Evaluation eval = new Evaluation(data);
eval.crossValidateModel(tree, data, 10, new Random(1));
または実行を評価する分類子をインスタンス化し、訓練別のセットでのトレーニングとテスト
import weka.core.Instances;
import weka.classifiers.Evaluation;
import weka.classifiers.trees.J48;
...
/* train and test are of type Instances (see above) */
// train classifier
Classifier cls = new J48();
cls.buildClassifier(train);
// evaluate classifier and print some statistics
Evaluation eval = new Evaluation(train);
eval.evaluateModel(cls, test);
System.out.println(eval.toSummaryString("\nResults\n======\n", false));
+0
これはGUIで行うことができますか? –
+0
@KshitijGはい。 [ここ](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/)または[ここ](https://www.ibm.com/developerworks/library/os)を参照してください。 -weka1 /)。 – user3658307
関連する問題
- 1. Wekaを使って感想でツイートを分類する
- 2. WEKAを使用して誤って分類されたインスタンスを検索する
- 3. Weka分類プロジェクトStringToWordVectorとSMOを使用
- 4. wekaを使用して画像分類ライブラリを構築する
- 5. Weka + NaiveBayesによる分類分類子+テキスト分類
- 6. word2vecを使って文の類似度を計算する
- 7. Wekaのインスタンスの分類
- 8. wekaのベースライン分類器
- 9. wekaの単項クラステキスト分類?
- 10. wekaでのテキスト分類
- 11. 分類器のWeka確率分布
- 12. Weka J48の分類はツリーに従っていません
- 13. NaiveBayesを使用してWekaのインスタンスを1つに分類する
- 14. wekaで間違って分類されたタプルを特定します。
- 15. Word2vecの分類とクラスタリングテンソルの流れ
- 16. Wekaでの単一インスタンスの分類
- 17. wekaのLibSVMを使用した1クラス分類のパラメータ調整
- 18. wekaを使用してJavaのドキュメント分類で動的テストインスタンスを渡す方法
- 19. CNNテキスト分類用にWord2Vecを保存する
- 20. Find Pythonで文のword2vecを使って2文の類似度を調べる
- 21. クラシファイアが訓練された後、wekaでテキストを分類する
- 22. Wekaで新しい画像を分類する
- 23. 単純なテキスト分類Javaで純粋なbayes(weka)を使用して
- 24. libsvmを使った気分分類
- 25. Weka OneRには?分類器モデルとして
- 26. wekaで分類するためのテキストの表現方法は?
- 27. Weka ADTreeの分類をExcelで繰り返し
- 28. SVMを使ってSUVとセダンを分類する
- 29. テンソル2tensorを使ってテキストを分類するには?
- 30. hmmlearnを使って英語のテキストを分類するには?
多分、この質問をhttp://stats.stackexchange.comで聞く方が良いでしょう。とにかく、これは標準的な分類作業です。 SVM、ベイジアン分類、ロジスティック回帰など、さまざまな分類手法を使用できます。 – Hossein