2016-10-12 11 views
2

私は現在、非常に特定のデータセットで作業しています:約1000カラムと1M行ですが、値の約90%はNanです。 これは、レコードが悪いためではなく、データが個人で測定されたものであり、およそ100のフィーチャだけが個人ごとに関連しているためです。このように、欠損値を代入すると、データ内の情報が完全に破壊されます。Python:欠けているデータを代入せずにマシンを学習する

同じ機能を持つ個人をグループ化して、各サブグループに関連する列のみを考慮するのは簡単ではありません。これは、実際には、各列のセット(ほとんどの場合、所与の個人にとって可能である)。

問題は、scikit learnディメンション削減方法で欠損値を処理できないことです。他の方法を使用し、次元削減をスキップするパッケージがありますか? I

+0

私は間違っている可能性がありますが、この質問は良いですがおそらくSOに属していません。 –

+0

今日の終わりに何をしたいですか?何らかのクラスタリング/コミュニティ検出をしたいだけなら、あなたのデータを二部グラフとして考えることができ、グラフ内のモジュールを決定することができます。 – Paul

+0

PCAは実際にはそのような種類のデータセットを意味します。私はそれを試してみることをお勧めします。欠損値を0に置き換え、結果のデータセットにPCAを適用します。 –

答えて

0

欠損値を処理し、ケースに最適なグラデーションブースティングパッケージを使用することができます.Rbのgbmパッケージとpythonのxgboostを使用することができます。欠損値の自動処理方法xgboostのセクション3.4のthis paperを参照して洞察を得てください。

+0

あなたがそれを受け入れている場合は、あまりにも答えをupvoteしてください!ありがとう! –

関連する問題