2011-10-27 9 views
1

私は7000のデータインスタンスを持っています。より良い方法を統計的なスコアで実現する

私はこれらのインスタンスを人間が手作業で採点しました(参考資料)。

私はデータのスコアを自動的に決定するために異なるエンジンを持っています。

私は、各列にあるエンジンのスコアとマニュアルで採点されたデータの1つの列を記述したExcelシートを持っています。

エクセルの関数やプログラミングを使って、人間の得点に近いエンジンを知りたいのですが、単純な数学を私に教えてもらえればうまくいきます。

データの得点は、私はExcelシートにアクセスするには、そのアプリケーションのためのC#と.NETエクセルCOMライブラリを使用-3.0から+3.0

にあります。

-UPDATE-

統計的にエラーを記述するための最良の方法だ何、私は人間のスコアを意味する(0)ニュートラルに近くなる傾向がありますが、エンジンのスコアが1.5を超える(バイアスされる傾向に言えば、 +/-)正しい方法でエラーを説明して誇張する最良の式を決定したいと思っています。

+0

質問は何ですか? – Mranz

+0

@Mranz "エンジンのどれが人間の得点に近いのか知りたがっています...." – SKandeel

+0

@ MerlynMorgan-Graham 通常、各エンジンの得点の平均を取って、マニュアルスコアとの距離が遠くなる。 – SKandeel

答えて

4

平均二乗誤差を使用することをお勧めします。各データインスタンスについて、各エンジンの差の2乗を計算します。これはエラーを誇張し、正の数を与えます。次に、各エンジンの平均二乗誤差を取る。最も低いのは、人間にとって「最も近い」推定量である。

+0

平均二乗誤差を意味する(すべての+7000二乗誤差の合計/ + 7000)? – SKandeel

+0

はい、それはどれくらいの大きさですか。 –

1

通常、人間の得点からエンジンスコアを差し引いて絶対値をとり、合計7000を合計します。最小の合計を持つエンジンが最も近いです。

+0

これはその方法の1つですが、必ずしも最適ではありません。たとえば、エンジン1には、全体に分散した差異があるかもしれませんが、全体の平均は、差異が常に人間のスコアの数パーセント以内にあるエンジン2よりわずかに優れています。どちらが良いですか? –

1

データセット間のEuclidean distanceは、すべてのデータポイントが同じ範囲にある場合は十分なはずです。わかりやすくするために、データインスタンスには番号が付けられ、エンジンには文字が表示されます。エンジンの(どの所与のエンジンが「閉じない」)データ点iに人間によって与えられたスコアがH_iであり、エンジンによって与えられたスコアがaエラー、Ea_iある場合aである:

ERROR(a) = (H_1 - Ea_1)^2 + (H_2 - Ea_2)^2 + … + (H_7000 - Ea_7000)^2 

最も近いエンジンは、エラーが最も小さいエンジンです。

関連する問題