2012-05-12 18 views
0

私は、1000行以上の20の属性(列に表示)を持つ一連のデータを持っています。 平均のセンタリングを使用したいと思っています。平均値を0にすることが含まれます。アトリビュートの平均をアトリビュート単位で削除するのか、それともすべてのアトリビュートの平均を削除しますか?統計平均センタリング - 合計平均または属性平均の使用

たとえば、属性Aの平均が500で、属性Bの平均が1,000の場合。私はAを与える、500を削除することができA内のすべての値について が0の平均値を属性それから私は、私は両方の属性のすべての値オフ750を取ることができる属性B.

OR

について同じことを行うことができます。

どちらが統計的に正しいですか?

私の質問はこれによるものです: 異なる属性から異なる値を差し引くと、それぞれの属性から異なる量が取られているので、属性はもはや比較できなくなります。私がすべての値から同じ値を引いた場合、いくつかの列は負の数字でいっぱいになることがあります(そして、平均のセンタリングの効果を否定します)。

おかげで、

答えて

3

通常あなたが個別に各属性を中央ます。
各属性を個別に中央に置く場合、個人にとっては、各測定値がその属性の平均とどのように異なるかが重要であり、その個人の属性の絶対比較を失うことになります。
たとえば、人の身長、体重、それらを別々にセンタリングした場合、「身長が平均よりも大きい場合、体重も平均体重よりも大きい」と尋ねることができます。身長と体重を平均すると無意味になります。
これについて考える方法の1つは、平均的な個人を作成することです。これをすべての観測に対してベンチマークとして使用できるようになります。
2小節の絶対値が比較可能な場合、たとえば、製品価格とコストは、シフトされるため、もう比較できません。あなたが気にしているのは、個々の観測に対して絶対比較を使用する手段であれば、たとえば%profitのような補助メトリックを作成する必要があります。その場合、中央値では、「より高い価格の製品は平均よりも利益がある」と尋ねることができます。

+0

ありがとう、それは素晴らしい説明であり、本当に役立ちます。 – ThePerson