2017-05-28 9 views
1

私はChromeブラウザのバージョン(テレメトリー)をテストするパフォーマンステストスイートを持っています。私は、特定のテストで、あるバージョンが他のバージョンよりも速いか遅いか、あるいはあまり大きくないかどうかを判断しようとしています。平均が大きいかどうかを判断するための仮説テスト

各テスト実行では、avg、std、count、max、min、sumを指定しています。

デルタ平均、%デルタ平均、デルタ標準、%デルタ標準など...私は与えられた2つのテストラン(例:2つのブラウザ間)を比較することができます。ヒストグラムが大きく異なるわけではない確率)、zスコア(別名標準スコア:ヒストグラム平均と基準ヒストグラム平均との間の標準偏差の数)およびU統計量(Mann-Whitney U仮説検定)。

X%では、1つのブラウザがこれらのテスト統計情報で与えられたブラウザよりも遅くても高速でも、それほど違いがないのでしょうか?

私はちょうどp値< 0.05をチェックし、もしそうなら平均を比較することを考えていました。しかし、これは単純すぎるようです。

ご迷惑をおかけして申し訳ございません。


アップデート:私は、テストを再実行する場合

が、私は平均とp値を見て2つのブラウザ間の%デルタの平均のために+/- 10%を取得するには十分ではありません。

答えて

1

まず、実行するテストの種類(パラメトリックまたはノンパラメトリック)を選択する必要があります。私はあなたが標準を見積もると思うので、私はz検定を使用しません。

  1. データが正常で分散が等しい場合は、t-test(パラメトリック)を実行できます。彼らが均等な分散を持っていない場合は、Welchのt検定を使用することができます。
  2. 正常でない場合は、Mann-Whitney test(ノンパラメトリック)を実行する必要があります。しかし、mann-whitneyは分布がお互いに異なり、その平均が違う場合にのみテストします。あなたが幸運で、同じ分散を持っているなら、平均についての推論をすることができます。

使用している統計ソフトウェアで片側テストを行っていることを確認してください。実際には、どちらのブラウザが遅く/速いかが実際に分かります。仮説avg(X)> avg(Y)を拒否すれば、avg(Y)> avg(X)を意味するわけではないという事実に注意してください。これは統計的に平均(Y)> = avg(X)を意味する。

最終的に、X信頼水準を使用してテストを実行して、結果をX%確実にする必要があります。これを簡単に述べるには、p値が< 1-Xであるかどうかを確認してください。最初に正常性テストを実行してからt検定を実行した場合、結果はX%未満です!

利用可能な値を使用すると、上記のすべてのテストを実行できます。

+0

私のデータは正常に見えません(ヒストグラムを見て)。しかし、再度、各サンプルにわずか5回のサンプル実行時間があります。 2つのブラウザ間での分散も同じではありません。 U統計では、2つのサンプルが異なっていて、どちらのブラウザが高速であるかはわかりません。その分散が同じではないと考えると、どちらが速いのかを推測するために何ができますか? – mikeecb

+0

5回の実行でより大きなサンプルが必要な場合は、統計テストを実行することはお勧めしません。 – dvarelas

+0

Mann-Whitneyテストでは、サイズ5のサンプル数のテストをリンクしています。この状況で何をお勧めしますか? – mikeecb

関連する問題