私はAzureのMLと私の目標を扱ってると、私は私のデータセット内の欠損値の(パーセンテージ)一定量を持っている場合、何が起こるかを確認することです。 、(例えば、大人データセットに取る)データセットから始め 元のデータセットを複製し、大会X.データセットXが20%の割合で無作為に欠損値が含まれますためにそれを呼び出す: 私の考えがある可能性があります。オリジナルデータセットと重複データセットXを取得したら、ニューラルネットアルゴリズムを使用してトレーニングとテストセットを作成し、データセットXを入力としてこのニューラルネットをトレーニングします。興味深いのは、発生したグローバルエラーです。私たちは、20%から始めて、データセットXに欠損値の範囲を拡大するために想像することができた後、40%の後のように...私は、最も難しい部分は、元のデータセットを複製することだと思うので、この不足しているとのデータセットXを作成します値。データセット内の欠損値の一定量を入れて - AzureのML
どのように私はそれを行うことができますか? Azure MLや多分R/Pythonスクリプトでモジュールを使う?ただ、私の考えを共有
それは難しいことではありません。 1とデータフレームの長さの間の乱数のリストをセットの20%の値の数だけ作成し、それを変数に保存します。あなたの行識別子としてそれらのものを使用してforループをinのforループに置き換えますfor(ro in 1:nrow(df)){if(ro%in%random_list){df $ datafield [ro] < - NA}} ' – sconfluentus
これはrです...ところで。しかし、あなたがしなければならないことは、いくつかの言語でスクリプトを作成し、それらの値を無作為に生成された行IDと置き換えることを学ぶことです。 – sconfluentus
@bethanyPあなたの答えをありがとう。私は別の列の型を持っている場合でも動作しますか?私はR言語を知らないし、コンセプトも本当にはっきりしない...ごめんなさい! – Fraangel