私は100のMLBの投手とそれぞれの5つの統計情報のリストを持っているとしましょう。例えば、3.5と3.1のERAの違いは、単純な類似性アルゴリズムにはあまり似ていないかもしれませんが、野球では多くあります。私が見ている選手の統計の多くにこのような小さな差があることを考えれば、このように少しばらつきがあり、2人のプレイヤー間の類似度を計算する最良の方法は何ですか?分散が小さいデータセット間の類似性を比較する良い方法はありますか?
データの例は次のようになります。
Player | ERA | Wins | Strikeouts
--------------------------------
A | 3.5 | 15 | 180
B | 3.1 | 12 | 210
C | 3.4 | 13 | 150
をダウン小数点の千分のに、私は、コサイン類似度を使用していた、との結果があまりにも似ています。
正規化されたユークリッド距離が必要な場合があります。 ERAは何を表していますか?それはガウス、多項式ですか...? –
あなたは[statistics stackexchnage](http://stats.stackexchange.com/)でより良い回答を得るかもしれません。 – amit
私は、あなたが比較を始めるのに十分な情報を持っているとは思いません。私は 'phs'が 'normalize'と言って正しい軌道に乗っていると信じていますが、イニングや試合ごとにKsで始まり、vsslosingなどで始まり、分散、スキュー、尖度を見てから、ああ、いくつかの元のデータを見つける。 – oaxacamatt