wekaでマイニングするためにデータベースからデータを取得する必要がありますが、欠落している属性でarffファイルを手動で改善する必要があります。 私の仕事では、特定のコースに登録する人(ID、名前、年齢、国籍、専門職、レベル、メールアドレス、パスワード)のテーブルがあります。 彼らのプロフィール(レベル、専門性)とその痕跡(コースのビデオを見るか、またはアカウントを持っているか、新しいアカウントを作成したかを見てください)で、コースに登録するかどうかを決定する必要があります。 欠けている値はsee-video(yes、no)とaccount(new、no)です。 私はデータマイニングとwekaで新しいです、私はアイデアがはっきりしていることを願っています。感謝! ありがとう!weka dataminingのためのデータが欠落しています
0
A
答えて
0
まず、何らかのデータが欠けているということを考える必要があります。誰かが完全なデータセットを取ってサイコロをして取り除くデータを決定したかのように、完全にランダムに欠けていますか?または、データが欠落しているという事実によって、インスタンスに関する情報が得られますか?たとえば、誰かがアカウントを作成したかどうかについてのデータがない場合、おそらくそのデータの共有を拒否したことを意味し、そのカテゴリのユーザーは実際にコースに登録する可能性は低いですか?
一般的に使用されているJ48ツリー分類子などの技術によっては、欠落しているデータを処理できます。 J48は、欠落していないすべての属性について、その値の集計のようなインスタンスの欠損値を処理します。データが完全に無作為に見つからない場合は、有効な結果が得られるはずです。
その他の手法では欠落しているデータに対処できないため、これらのいずれかを使用する場合は、残りのデータがなくなるまで属性またはインスタンスをデータから削除するか、欠損値をそれらの属性とインスタンスを使用すること、またはこれらのメソッドのいくつかの組み合わせを許可する。典型的な方法は、欠損値を数値属性の欠損値の平均値、または公称属性の欠損値の中で最も一般的な値で置き換えることですが、欠損値を選択した値と入れ替えることもできます。名義属性の新しい別個の値として「欠落」を扱うことさえできます。
Wekaは分類を行う前にこれらの操作を実行できるフィルタを備えているため、自分で.arffデータを編集したり編集したりする必要はありません。
関連する問題
- 1. データが欠落している遅れ
- 2. バラグラフでデータの1つの「ビン」が欠落しています
- 3. 欠落しているデータの例外
- 4. Pandas - 欠落したデータが欠落している行を.isnull()、notnull()、dropna()を使用して機能しない
- 5. lmのデータの振る舞いが欠落しています:データが欠落しているプレディクタでも完全なケースが使用されます
- 6. データの欠落したdplyrを使用
- 7. predict.lm Yのデータが欠落して回帰した後
- 8. テストのためのHSQLの欠落しているシーケンス
- 9. ETLデーターを介してデータをロード中にデータが欠落しています
- 10. Sales_flat_orderデータが欠落magento
- 11. F#JSONデータが欠落しているとtypeproviderがクラッシュする
- 12. PostgreSQLの - ERROR:コラム "XX" SQL状態のための欠落データ:22P04
- 13. テンプレートが欠落しています - テンプレートが欠けています
- 14. rsyncコマンド。欠落データ
- 15. Paypal IPN、欠落したPOSTデータ
- 16. R:欠落データのヒストグラム
- 17. Logstashでデータが欠落しましたか?
- 18. 既存のデータから欠落したデータを生成する
- 19. 列データに基づいて行が欠落しています-MySQL
- 20. 初回審査のためにアプリの購入ボタンが欠落している
- 21. 欠落しているポリマーエレメント
- 22. 2d畳み込みPythonでデータが欠落している
- 23. Pandasでデータが欠落しているread_csv
- 24. exifデータが欠落している画像ファイル
- 25. ジャンゴManagementFormデータが欠落しているか
- 26. 最後の数ピクセルのテキストが欠落しています
- 27. コール中のパラメータ#1の引数が欠落しています
- 28. オブジェクトのArrayListのGson型パラメータが欠落しています
- 29. コンパイルされたクラスファイルのデバッグ情報が欠落しているためにパラナマーエラーが発生しました
- 30. catnetパッケージのベイジアンネットワーク:欠落しているデータの処理