2017-01-13 7 views
-1

データマイニングに序数でスケーリングんしても意味がない、「品質」という名前の列があり、その値は次のとおりです。それはデータマイニング回帰問題に

['Excellent','Good','Average','Fair','Poor'] 

ので、私は「良い」と思います「平均」よりも優れている、と私はマッピングに序数にそれらを変更します。

'Excellent' : 5 
'Good' : 4 
'Average' : 3 
'Fair' : 2 
'Poor' : 1 

ので、私の質問は次のとおりです。

私は数に値を変更した後、私はこのことについて平均と分散でスケーリングを行うことができますまたはディナール番号、たとえば、StandardScaler with pandas

+1

この質問はプログラミングに関連していないので、http://stats.stackexchange.com – Sentry

答えて

1

この質問に対する回答はありません。

整数を符号化する序文はヒューリスティックです。たとえば、-100,10,0,5,10などのより良い結果を得ることができます。それとも全く問題ではないかもしれません!

これが必要かどうかを知りたい場合は、データとプロセスの統計モデルを調べる必要があります。これは難しいことですが、あなた自身でこれを行う必要があります(データや問題、十分な時間がないため)。

+0

にお返事ください。返信いただき、ありがとうございました。あなたは数字を挙げました:-100、-10,0,5,10、あなたはなぜこれらの数字を使用しているいくつかの手掛かり、あなたはいくつかのパターンがありますか?もう一度ありがとうございます – 176coding

+0

「悪い」は非常にまれですが、その効果を強調するほうが良いかもしれません。値は一様に分布していない可能性が高い。 –