2017-10-17 14 views
0

wekaでマイニングするためにデータベースからデータを取得する必要がありますが、欠落している属性でarffファイルを手動で改善する必要があります。 私の仕事では、特定のコースに登録する人(ID、名前、年齢、国籍、専門職、レベル、メールアドレス、パスワード)のテーブルがあります。 彼らのプロフィール(レベル、専門性)とその痕跡(コースのビデオを見るか、またはアカウントを持っているか、新しいアカウントを作成したかを見てください)で、コースに登録するかどうかを決定する必要があります。 欠けている値はsee-video(yes、no)とaccount(new、no)です。 私はデータマイニングとwekaで新しいです、私はアイデアがはっきりしていることを願っています。感謝! ありがとう!weka dataminingのためのデータが欠落しています

答えて

0

まず、何らかのデータが欠けているということを考える必要があります。誰かが完全なデータセットを取ってサイコロをして取り除くデータを決定したかのように、完全にランダムに欠けていますか?または、データが欠落しているという事実によって、インスタンスに関する情報が得られますか?たとえば、誰かがアカウントを作成したかどうかについてのデータがない場合、おそらくそのデータの共有を拒否したことを意味し、そのカテゴリのユーザーは実際にコースに登録する可能性は低いですか?

一般的に使用されているJ48ツリー分類子などの技術によっては、欠落しているデータを処理できます。 J48は、欠落していないすべての属性について、その値の集計のようなインスタンスの欠損値を処理します。データが完全に無作為に見つからない場合は、有効な結果が得られるはずです。

その他の手法では欠落しているデータに対処できないため、これらのいずれかを使用する場合は、残りのデータがなくなるまで属性またはインスタンスをデータから削除するか、欠損値をそれらの属性とインスタンスを使用すること、またはこれらのメソッドのいくつかの組み合わせを許可する。典型的な方法は、欠損値を数値属性の欠損値の平均値、または公称属性の欠損値の中で最も一般的な値で置き換えることですが、欠損値を選択した値と入れ替えることもできます。名義属性の新しい別個の値として「欠落」を扱うことさえできます。

Wekaは分類を行う前にこれらの操作を実行できるフィルタを備えているため、自分で.arffデータを編集したり編集したりする必要はありません。

関連する問題