2017-07-18 7 views
0

私は2つのデータフレームを持っています。 各データフレームには64個の列があり、各列には256個の値が含まれています。 統計的に重要なのは、これらの2つのデータフレームを比較する必要があります。統計的有意性のために2つのマルチカラムデータフレームを比較する

私は統計の基礎のみを知っています。 私がしたことは、各データフレームのすべての列のp値を計算することです。 次に、1番目のデータフレームの各列のp値と2番目のデータフレームの各列のp値を比較します。 EX:第1データフレームの第1列のp値から第2データフレームの第1列のp値。

次に、2つのデータフレーム間でどの列が大きく異なるかを確認します。

これを行うにはより良い方法がありますか? 私はPythonを使用します。

答えて

0

正直言って、あなたがそれをする方法は、それが意図された方法ではありません。

1)仮説

最初、私は強く、すべてに対して、すべてのテストを避けるためにお勧め:私のハイライトそのような分析を行う際には、常に心に留めておく必要がありますいくつかのポイントをしてみましょう。この種の探索的データ分析では、いくつかの重要な結果が得られる可能性がありますが、最終的にはmultiple comparisons problemになる可能性があります。 簡単な言い方をすると、実際には重要ではない何かが見える可能性が非常に高くなります(Type I and Type II errorsも参照)。

2)p値は、魔法

はあなたが使用したテストどの教えてくれないすべての列のp値を計算することを言って、すべてではありません。 p値は、多くのテスト(相関、t検定、ANOVA、回帰など)によって使用される単なる数学的統計からの「ツール」に過ぎません。有意なp値を有することは、観察した差異/関係が統計的に関連していることを意味する(すなわち、系統的でランダムな効果ではない)。

3)は、使用しているテストに応じて、サンプルと効果サイズ

を考えてみましょう、p値は、使用しているサンプルサイズに敏感です。サンプルサイズが大きくなればなるほど、重要な効果を見つける可能性が高くなります。たとえば、2つのグループをそれぞれ100万の観測値と比較した場合、最小の差異(ランダムな人為的要因かもしれません)が重要になります。したがって、観察された実際の大きさを示すエフェクトサイズ(例えば、r、相関についてはCohenのd、ANOVAの部分ηなど)を調べることも重要です。あなたがここにいくつかの本当の助けを取得したい場合

概要

そうで、私はいくつかのコードを投稿して、より具体的には(1)あなたの研究の質問が何であるかを指定することをお勧め、(2)あなたが使用しテストされ、 (3)コードと出力がどのように見えるか。

関連する問題