2017-06-20 2 views
-2

私は形のデータフレームを持っています2701x128これは欠けている値がたくさんあります。いくつかの行には95%のデータと5%のデータしかないことがあります。私はそれを視覚化してみましょう:不均等に欠けているデータを入力する方法

X軸は(ソート後の)行の数であり、y軸は非ゼロ値(SORTED、ヒストグラムのような)

enter image description here

Xの数であります私がする必要がある:すべての行(SORTED、ヒストグラムのような)私は必要

enter image description here

の上に持っているどのように多くの非ゼロの列(ソート後の)列の数、y軸を示し、ある-axisこれは私が解決する必要がある問題ですので、私ができる限り正確なデータを入力してください。 問題:非常に粗いので、平均、中央値、統計的なモーメントですべてを補間できません。私はまた、欠落しているデータに構造がないため、通常の学習モデルを作成できません。

学習モデルと同じように正確なものを提案してください。モデルは配信をモデル化できますが、完全にランダムなミスを処理できるようにしてください。したがって、明らかに、主な問題は、この非構造化ミスからデータセットを作成することです。私は現時点で解決策を見つけることができません。

答えて

2

私が最初に問題があります数独と呼ばれる日本のゲームであり、私はその戦略

に従うことをお勧めすることができ、行構造 などのデータは、カラムベースの

としてそれについて考えてみてください、あなたを検討していると思います

まずはあなたが一番必要なものを見つけ出す必要があります(ただし、100%パーセントの記入欄はありません) これをB列と呼んでください 欠落しているデータの割合はどのくらいですか?小さな部分の場合 - ヒストグラムを作成してそのPDFを見てください - 単純な平均であり、中央値でそれがうまくいくでしょうか?

100%充填カラムはありますか?これをG列と呼ぶことができます 塗りつぶされていない列には強い相関があります。そうであれば、この相関関係に基づいて欠損値を置き換えます。2つ以上の塗りつぶした列を基本回帰で使用しようとすることができます。

B列のデータの一部を、充填された列と他の部分を別の非完全充填列で置き換えて何度も行うことができます。

もちろん、あなたは一種のフランケンシュタインモンスターを持っていますが、試してみる価値はあります。効果はそれがCVに基づいていた

しかし、それはちょうど短いスケッチ

+0

1.私は行構造としてそれを考慮しなかったプロットされた2つのグラフ:ミスが行、その他が列であることを示すグラフ。 2.これらの反復的なalghoritmは良いです、実際には、それは私のベースラインですが、 "エラー"の観点からはあまり良くありません。つまり、条件は厳密に決められているためですが、データセットには1つもありません。したがって、列/行を補間する場合は、行/列が他の行/列の非常に近い近隣となることはありません。無視すると、この観測は一般的な分布になります。 あなたはこの "ベイメシアン"を考えることができますか? –

+0

なぜ、ベイジアン・アプローチを使用しないでください。列内の塗りつぶしされたデータに基づいて、連続変数が範囲内にある確率のカテゴリを持つ可能性があります - 他の列にデータがあり、それゆえ、全体の範囲でそれを行います。または、あなたはPythonでsklearnのNaive Bayesを使うことができます –

関連する問題