2017-12-07 10 views
1

以下に示すように、私は、このような予想されると、各カテゴリ内の周波数を有する返します「Tはそう思う:stats.chisquareが誤っp_valueの= 0

stats.chisquare(city_ans.answered, city_ans.sent) 
# Power_divergenceResult(statistic=893005.32003277098, pvalue=0.0) 

フィルタリングがあまり変化しない10未満の値:

stats.chisquare(city_ans[city_ans.answered > 10].answered, city_ans[city_ans.answered > 10].sent) 

# Power_divergenceResult(statistic=892917.3023088905, pvalue=0.0) 

私は間違っていますか? ここでFテストをどうやって適用できますか?

PS。 OBSとEXPと同じ値で、この試験を用いて - そのようなコードはまた、1 = p_val返す必要があり、それはないただし= 1

stats.chisquare(city_ans.sent, city_ans.sent) 
# Power_divergenceResult(statistic=0.0, pvalue=1.0) 

p_val返す:

stats.chisquare(0.9*city_ans.sent, city_ans.sent) 
# Power_divergenceResult(statistic=10591.249999999995, pvalue=0.0) 

UPD:

f_obs = weeks_ans.answered/np.sum(weeks_ans.answered) 
f_exp = weeks_ans.sent/np.sum(weeks_ans.sent) 
stats.chisquare(f_obs, f_exp) 

# Power_divergenceResult(statistic=0.064491479990141154, pvalue=1.0) 

これはかなり良い結果に見えますが、私はここに何かがないと思います。

例えば以下のもの分布に見て、同じアプローチ:

# Power_divergenceResult(statistic=0.064491479990141154, pvalue=1.0) 

はそれが公正disturbitionが同じ

enter image description here

+0

データの量はどれくらいですか? –

+0

@WarrenWeckesserわずか54カテゴリ(x軸)、頻度 - 非常に低い値から最大1000まで – Rocketq

+0

大きなスパイクは同じx値で発生しますか?そうでない場合、それらは周波数において巨大な不一致を生じる。 –

答えて

2

としては@Crasyによって指摘されているようなテストを使用することですイワン、chisquare検定では、観察数と期待数に同じ数の観測数が必要です。

この場合、データは2つの異なるサンプルに由来すると思われます。これは、本質的に2×Kコンティンジェンシーテーブルであり、各行が同じ分布を有するという仮説は、期待される頻度カウントを計算する際に行合計によって補正される。

したがって、chisquareテストを直接使用すると、2つのサンプルのケースで間違ったテストになります。 scipy.statsはcontingencyテーブルの独立性のためのchisquareテストを持っています。

ここケースのようです、非常に大きな数についての一般的な発言:

サンプルサイズは、帰無仮説が棄却され、p値は、帰無仮説からどんな小さいがゼロでない偏差をゼロになる成長するにつれて。計数、すなわち観察の合計数が50,000を超える場合、適切な吸水試験は、統計的に有意であるが用途には関係のない小さな差異さえも排除する可能性が最も高い。

代わりに、等価性テストを使用して、2つの分布がいくつかの小さなマージンで違いがないという仮説を検証することができます。難しいことは、いくつかの適合度統計の観点から等価しきい値を指定するのは難しいということです。

+0

です。私は統計から偶発事象テーブルを適用しました - それは両方のケースを拒否しますが、2番目のケースではより確実です。最初のケースp_value = 10^-182、ただゼロになります – Rocketq

+0

ここで二項検定を適用できますか? – Rocketq

+0

@Rocketqいいえ、データが多項式、すなわち2つ以上の周波数または比率であるため、2項は適切ではありません。二項演算は、二項選択のカウントのためのものです。 – user333700