2017-05-02 9 views
-3

map-reduceフレームワークでナイーブベイズ分類アルゴリズムを使用してデータセットを分類しようとしています。 私の質問は、データセットを訓練とテストに分けて、訂正された分類されたインスタンスと不正確な分類されたインスタンスから正確さを計算する方法です。列車とテストセットにデータセットを分割する方法は?

+0

ランダムサンプリングを使用したことはありますか? –

答えて

0

あなたがRemovePercentageフィルタ トレーニングセットを使用することができますフィルタを適用し、完全なデータセット 2.スプリット 4の正しい割合を設定 3.前処理パネルのRemovePercentageフィルタを選択 1.ロードを 5新しいファイルとして生成されたデータを保存

テストセット: 1ロード完全データセット(または単にデータセットへの変更を元に戻す元に戻すを使用)2. まだ3を選択していない場合RemovePercentageフィルタを選択。 invertSelectionプロパティをtrueに設定します。 4.フィルタを適用する 5.生成されたデータを新しいファイルとして保存する

+0

データセットは約1ギガ、wekaは大きなデータを供給しません 助けが必要ですか? – medooSa

+0

@medooSa Rプログラミングをお勧めします.GUIインターフェイスが必要な場合は、RStudioより優れたものはありません。 Rを学ぶための良いオンラインリソースはR-bloggersです。しかし、PCAやk-meansと比較すると、Rで同じことをすると5分もかかりません。 (私は効率の面でこれをテストしました) R以外にもRapidMinerやApache Hadhoopがありますが、私の意見ではwekaはbigdataのために最高です...私はあなたにゲートを見せることを提案します[LINK ](https://gate.ac.uk/) – Boschko

+0

私は、eclipseを使ってコンパイルされたjava .jarファイルを作成しました。 Rプログラミングで.jarファイルをインポートして作業することが許可されているか、Rプログラミングを使用してすべてのコードを書き込む必要がありますか? // CRAN: – medooSa

関連する問題