それはデータマイニング回帰問題に

-1

データマイニングに序数でスケーリングんしても意味がない、「品質」という名前の列があり、その値は次のとおりです。それはデータマイニング回帰問題に

['Excellent','Good','Average','Fair','Poor']

ので、私は「良い」と思います「平均」よりも優れている、と私はマッピングに序数にそれらを変更します。

'Excellent' : 5 
'Good' : 4 
'Average' : 3 
'Fair' : 2 
'Poor' : 1

ので、私の質問は次のとおりです。

私は数に値を変更した後、私はこのことについて平均と分散でスケーリングを行うことができますまたはディナール番号、たとえば、StandardScaler with pandas

2017-01-13 176coding

この質問はプログラミングに関連していないので、http：//stats.stackexchange.com – Sentry

この質問に対する回答はありません。

整数を符号化する序文はヒューリスティックです。たとえば、-100,10,0,5,10などのより良い結果を得ることができます。それとも全く問題ではないかもしれません！

これが必要かどうかを知りたい場合は、データとプロセスの統計モデルを調べる必要があります。これは難しいことですが、あなた自身でこれを行う必要があります（データや問題、十分な時間がないため）。

2017-01-13 07:28:12

にお返事ください。返信いただき、ありがとうございました。あなたは数字を挙げました：-100、-10,0,5,10、あなたはなぜこれらの数字を使用しているいくつかの手掛かり、あなたはいくつかのパターンがありますか？もう一度ありがとうございます – 176coding

「悪い」は非常にまれですが、その効果を強調するほうが良いかもしれません。値は一様に分布していない可能性が高い。 –

答えて