2017-01-12 3 views
-1

x属性とyレコードを持つデータセットがあります。最大x-1個の欠損値を持つ入力レコードがある場合、残りの欠損値のどれを合理的に近似することができますか?データセットが与えられた入力のおおよその値がありません

そこで、以下の例では、入力レコードは(残りは行方不明と、属性2及び6)2つの値を有し、I属性8

Data table with input I want to classify

Iの値に近似したいです欠損値は「代用」によって処理されていることを知っていますが、私は一般に前処理データセットに関する例を見つけています。私は回帰を使用して欠損値を決定し、理想的には一度構築されたモデルを使用するソリューションを探しています(可能な場合、毎回生成する必要はありません)。

+1

のすべての欠落値のために、世界平均(8.4)を使用するよりも優れています。画像をカットアンドペーストすることはできません。 – G5W

答えて

0

アトリビュートが存在する場合と存在しない場合の可能性の数によって、すべてのケースをカバーする線形回帰のようなモデルのコレクションを維持することは実用的ではないように見えます。私にとって実用的だと思われるモデルは、あなたがモデルを正確に作っていないものです - 最近隣の回帰。私の提案は、利用可能な属性を使用し、トレーニングポイントまでの距離を計算することです。最寄りの隣の値、または複数の最近隣の(おそらく加重された)平均を使用することができます。あなたの例では、距離を計算するために属性2と6のみを使用します。最も近い点が最後の点(3.966469、8.911591)です。そのポイントは、属性8の値が6.014256なので、新しいポイントの属性8の見積もりです。

また、3つの最近傍を使用することもできます。それらはポイント17,8、および12です。したがって、これらのポイントの属性8の平均値、または加重平均を使用できます。人々は時々1/distの重みを使用します。もちろん、3つの隣人は単なる例に過ぎません。あなたは別のkを選ぶことができます。

これはおそらく、あなたの代わりに、画像のテキストとしてあなたのサンプルデータを提供する場合、それが参考になる属性8.

+0

あなたの答えをありがとう。トレーニングセットの範囲外では動作しませんが、k-nearestアルゴリズムを使用しますか? 1があった場合には2つの属性間の1の相関は、例えば: (4,4) (5,5) (5,5) (6,6) (7,7) (7 、7) (8,8) そして、私は、次の入力を有していた:3つの最近傍が1/DISTによって加重、4.67の予測されたXの平均値(または場合であろう使用 (2、x)は を、4.57 )。 –

+0

あなたが言う状況が疑わしい結果を生むのは間違いありませんが、それはどんな方法でも真実です。あなたの例では、データのモデル(ライン)を想定していると思います。あなたがそのモデルを知っていて、パラメータを推定するだけであれば、(あなたの例のように)よりうまくいくかもしれません。しかし、あなたの関数が二次関数であり、測定値に誤差があるとします。外挿法は貧弱です。また、関数の基本的な形式がわからず、トレーニングデータに合ったものを使用しただけではどうでしょうか。再び、外挿は危険です。 – G5W

関連する問題