imputation

2熱

2答えて

は興味深いことに、私は両方のStackOverflowや他のサイトでこの程度異なった答えの多くを参照してください。私のトレーニングデータセットで作業している間を、私は決定木モデルを使用して、特定の列の欠損値を帰属しました。だから私の質問です。転用のためのモデル（予測ではなく）を作成するのに、利用可能なすべてのデータ（Training & Test）を使用するのは公正でしょうか？また、テストセット

0熱

1答えて

複数の帰属データがあるバイナリロジスティック回帰

私は、バイナリロジスティック回帰分析（連続予測とカテゴリ予測との相互作用を伴う）を行うためにR（すなわちMICE）内で利用可能なオプションを用いて作業しようとしています。しかし、私は、この単純な分析を複数の帰属データ（詳細と再現可能な例here）で実行するのに苦労しています。具体的には、マウスのGLM機能を使用した「対数尤度比」の等価性を含む、出力のすべての側面をプールする方法を見つけることが

0熱

1答えて

PythonでのFancy ImputeからMICEアルゴリズムを使用したときのTypeError

私のデータセットに欠けているデータを埋めようとしていて、私のメンターはPythonで特にFICE Imputeパッケージを使用することを推奨しました。まず、MICEについて読んでみると、欠落しているデータがランダムではない（欠落しているデータが特定の国/年に存在する可能性が高いと思われるので疑問に思う）のであれば、だから、誰かが別のアルゴリズムをお勧めしますか？（私のプロジェクトは世銀のジェン

0熱

1答えて

マウスのmi.anova出力がRで機能していることを理解していて、マウスがパッケージを追加しています

私はマウスで代用しているデータが欠落しているデータフレームを持っています。私が得ている出力を完全に理解していません。 SSQ =二乗和。しかし、正方形の合計は？残存平方和？または総平方和 - 残余平方和？私は後者を想定していますが、わかりません。 df1は意味があります。これは、各変数内のグループ数-1です。 df2わかりません。私はマウスに473の変数と20の代償を持っています。しかし、473

0熱

1答えて

パンダのデータフレームの2つの近傍（上および下または左および右）に基づくNaNの線形補間

私は以下のようなインデックスとしてfloat値とtimestampの1つの列を持つデータフレームを持っています。索引内のすべてのタイムスタンプは昇順にソートされます。私は直線的に補間するにはどうすればよい timestamp value 2014-01-08 08:00:42 1 2014-01-08 08:01:00 NaN 2014-01-08 08:01:12 3 2014-01

0熱

1答えて

中央値が置換され、数値データが必要

グループに基づいて欠損値を代入しようとしています。 median（）関数が数値データを必要とするエラーが発生していますが、データがすべて数値であるため問題が見えません。ここには最小限再現可能な例があります。 set.seed(123) cluster = sample(seq(1,10),1000,replace=TRUE) V1 = sample(c(runif(100),NA),1000,

-1熱

1答えて

トレーニングデータにはすべての値が欠落していますが、テストデータの同じ列にはいくつかの値があります。

私はトレーニングとテストのデータセットを別々に受け取っています。両方のデータセットは全く同じ構造（同じ列/機能）を持っています。トレーニングデータセットには、すべての行に欠損値がある列があります。予測モデルを作ろうと思っていたら、それらの列が全く情報を与えていないので、それらの列を単に削除することができます。しかし、問題は、同じ列にテストデータセットにいくつかの値があることです。したがって、トレー

0熱

1答えて

null値を含むDataFrameからのRowMatrix

私は映画に対してユーザー評価（1から5まで）のDataFrameを持っています。最初の列は映画のIDで、残りの列は、各ユーザがその映画のために評価されているところDataFrameを得るために、私は次の操作を行います。ここでは、今 val ratingsPerMovieDF = imdbRatingsDF .groupBy("imdbId") .pivot("userId")