私は現在、非常に特定のデータセットで作業しています:約1000カラムと1M行ですが、値の約90%はNanです。 これは、レコードが悪いためではなく、データが個人で測定されたものであり、およそ100のフィーチャだけが個人ごとに関連しているためです。このように、欠損値を代入すると、データ内の情報が完全に破壊されます。Python:欠けているデータを代入せずにマシンを学習する
同じ機能を持つ個人をグループ化して、各サブグループに関連する列のみを考慮するのは簡単ではありません。これは、実際には、各列のセット(ほとんどの場合、所与の個人にとって可能である)。
問題は、scikit learnディメンション削減方法で欠損値を処理できないことです。他の方法を使用し、次元削減をスキップするパッケージがありますか? I
私は間違っている可能性がありますが、この質問は良いですがおそらくSOに属していません。 –
今日の終わりに何をしたいですか?何らかのクラスタリング/コミュニティ検出をしたいだけなら、あなたのデータを二部グラフとして考えることができ、グラフ内のモジュールを決定することができます。 – Paul
PCAは実際にはそのような種類のデータセットを意味します。私はそれを試してみることをお勧めします。欠損値を0に置き換え、結果のデータセットにPCAを適用します。 –