私はChromeブラウザのバージョン(テレメトリー)をテストするパフォーマンステストスイートを持っています。私は、特定のテストで、あるバージョンが他のバージョンよりも速いか遅いか、あるいはあまり大きくないかどうかを判断しようとしています。平均が大きいかどうかを判断するための仮説テスト
各テスト実行では、avg、std、count、max、min、sumを指定しています。
デルタ平均、%デルタ平均、デルタ標準、%デルタ標準など...私は与えられた2つのテストラン(例:2つのブラウザ間)を比較することができます。ヒストグラムが大きく異なるわけではない確率)、zスコア(別名標準スコア:ヒストグラム平均と基準ヒストグラム平均との間の標準偏差の数)およびU統計量(Mann-Whitney U仮説検定)。
X%では、1つのブラウザがこれらのテスト統計情報で与えられたブラウザよりも遅くても高速でも、それほど違いがないのでしょうか?
私はちょうどp値< 0.05をチェックし、もしそうなら平均を比較することを考えていました。しかし、これは単純すぎるようです。
ご迷惑をおかけして申し訳ございません。
はアップデート:私は、テストを再実行する場合
が、私は平均とp値を見て2つのブラウザ間の%デルタの平均のために+/- 10%を取得するには十分ではありません。
私のデータは正常に見えません(ヒストグラムを見て)。しかし、再度、各サンプルにわずか5回のサンプル実行時間があります。 2つのブラウザ間での分散も同じではありません。 U統計では、2つのサンプルが異なっていて、どちらのブラウザが高速であるかはわかりません。その分散が同じではないと考えると、どちらが速いのかを推測するために何ができますか? – mikeecb
5回の実行でより大きなサンプルが必要な場合は、統計テストを実行することはお勧めしません。 – dvarelas
Mann-Whitneyテストでは、サイズ5のサンプル数のテストをリンクしています。この状況で何をお勧めしますか? – mikeecb