imputation

    2

    2答えて

    は興味深いことに、私は両方のStackOverflowや他のサイトでこの程度異なった答えの多くを参照してください。私のトレーニングデータセットで作業している間 を、私は決定木モデルを使用して、特定の列の欠損値を帰属しました。だから私の質問です。転用のためのモデル(予測ではなく)を作成するのに、利用可能なすべてのデータ(Training & Test)を使用するのは公正でしょうか?また、テストセット

    0

    1答えて

    私は、バイナリロジスティック回帰分析(連続予測とカテゴリ予測との相互作用を伴う)を行うためにR(すなわちMICE)内で利用可能なオプションを用いて作業しようとしています。 しかし、私は、この単純な分析を複数の帰属データ(詳細と再現可能な例here)で実行するのに苦労しています。 具体的には、マウスのGLM機能を使用した「対数尤度比」の等価性を含む、出力のすべての側面をプールする方法を見つけることが

    0

    1答えて

    私のデータセットに欠けているデータを埋めようとしていて、私のメンターはPythonで特にFICE Imputeパッケージを使用することを推奨しました。 まず、MICEについて読んでみると、欠落しているデータがランダムではない(欠落しているデータが特定の国/年に存在する可能性が高いと思われるので疑問に思う)のであれば、だから、誰かが別のアルゴリズムをお勧めしますか? (私のプロジェクトは世銀のジェン

    0

    1答えて

    私はマウスで代用しているデータが欠落しているデータフレームを持っています。 私が得ている出力を完全に理解していません。 SSQ =二乗和。しかし、正方形の合計は?残存平方和?または総平方和 - 残余平方和?私は後者を想定していますが、わかりません。 df1は意味があります。これは、各変数内のグループ数-1です。 df2わかりません。私はマウスに473の変数と20の代償を持っています。しかし、473

    0

    1答えて

    私は以下のようなインデックスとしてfloat値とtimestampの1つの列を持つデータフレームを持っています。索引内のすべてのタイムスタンプは昇順にソートされます。私は直線的に補間するにはどうすればよい timestamp value 2014-01-08 08:00:42 1 2014-01-08 08:01:00 NaN 2014-01-08 08:01:12 3 2014-01

    0

    1答えて

    グループに基づいて欠損値を代入しようとしています。 median()関数が数値データを必要とするエラーが発生していますが、データがすべて数値であるため問題が見えません。ここには最小限再現可能な例があります。 set.seed(123) cluster = sample(seq(1,10),1000,replace=TRUE) V1 = sample(c(runif(100),NA),1000,

    -1

    1答えて

    私はトレーニングとテストのデータセットを別々に受け取っています。両方のデータセットは全く同じ構造(同じ列/機能)を持っています。トレーニングデータセットには、すべての行に欠損値がある列があります。予測モデルを作ろうと思っていたら、それらの列が全く情報を与えていないので、それらの列を単に削除することができます。しかし、問題は、同じ列にテストデータセットにいくつかの値があることです。したがって、トレー

    0

    1答えて

    私は映画に対してユーザー評価(1から5まで)のDataFrameを持っています。最初の列は映画のIDで、残りの列は、各ユーザがその映画のために評価されているところDataFrameを得るために、私は次の操作を行います。ここでは、今 val ratingsPerMovieDF = imdbRatingsDF .groupBy("imdbId") .pivot("userId")