2012-01-16 7 views
1

私は100のMLBの投手とそれぞれの5つの統計情報のリストを持っているとしましょう。例えば、3.5と3.1のERAの違いは、単純な類似性アルゴリズムにはあまり似ていないかもしれませんが、野球では多くあります。私が見ている選手の統計の多くにこのような小さな差があることを考えれば、このように少しばらつきがあり、2人のプレイヤー間の類似度を計算する最良の方法は何ですか?分散が小さいデータセット間の類似性を比較する良い方法はありますか?

データの例は次のようになります。

Player | ERA | Wins | Strikeouts 
-------------------------------- 
A  | 3.5 | 15 | 180 
B  | 3.1 | 12 | 210 
C  | 3.4 | 13 | 150 

をダウン小数点の千分のに、私は、コサイン類似度を使用していた、との結果があまりにも似ています。

+1

正規化されたユークリッド距離が必要な場合があります。 ERAは何を表していますか?それはガウス、多項式ですか...? –

+2

あなたは[statistics stackexchnage](http://stats.stackexchange.com/)でより良い回答を得るかもしれません。 – amit

+0

私は、あなたが比較を始めるのに十分な情報を持っているとは思いません。私は 'phs'が 'normalize'と言って正しい軌道に乗っていると信じていますが、イニングや試合ごとにKsで始まり、vsslosingなどで始まり、分散、スキュー、尖度を見てから、ああ、いくつかの元のデータを見つける。 – oaxacamatt

答えて

2

は、実施例と比較する前に、各機能を正規化。

データセット内の各列について、平均値と範囲(幅)を計算します。その後、平均値を減算し、範囲で除算します。外れ値が多い場合は、代わりに標準偏差で割ります。

関連する問題