私は形のデータフレームを持っています2701x128
これは欠けている値がたくさんあります。いくつかの行には95%のデータと5%のデータしかないことがあります。私はそれを視覚化してみましょう:不均等に欠けているデータを入力する方法
X軸は(ソート後の)行の数であり、y軸は非ゼロ値(SORTED、ヒストグラムのような)
Xの数であります私がする必要がある:すべての行(SORTED、ヒストグラムのような)私は必要
の上に持っているどのように多くの非ゼロの列(ソート後の)列の数、y軸を示し、ある-axisこれは私が解決する必要がある問題ですので、私ができる限り正確なデータを入力してください。 問題:非常に粗いので、平均、中央値、統計的なモーメントですべてを補間できません。私はまた、欠落しているデータに構造がないため、通常の学習モデルを作成できません。
学習モデルと同じように正確なものを提案してください。モデルは配信をモデル化できますが、完全にランダムなミスを処理できるようにしてください。したがって、明らかに、主な問題は、この非構造化ミスからデータセットを作成することです。私は現時点で解決策を見つけることができません。
1.私は行構造としてそれを考慮しなかったプロットされた2つのグラフ:ミスが行、その他が列であることを示すグラフ。 2.これらの反復的なalghoritmは良いです、実際には、それは私のベースラインですが、 "エラー"の観点からはあまり良くありません。つまり、条件は厳密に決められているためですが、データセットには1つもありません。したがって、列/行を補間する場合は、行/列が他の行/列の非常に近い近隣となることはありません。無視すると、この観測は一般的な分布になります。 あなたはこの "ベイメシアン"を考えることができますか? –
なぜ、ベイジアン・アプローチを使用しないでください。列内の塗りつぶしされたデータに基づいて、連続変数が範囲内にある確率のカテゴリを持つ可能性があります - 他の列にデータがあり、それゆえ、全体の範囲でそれを行います。または、あなたはPythonでsklearnのNaive Bayesを使うことができます –