2011-07-18 13 views
2

私は区間[0,1]に2系列の45値を持っています。最初のシリーズは人間が作成した標準で、もう1つはコンピュータで生成されたシリーズです(フルシリーズはこちらhttp://www.copypastecode.com/74844/)。 最初のシリーズは、徐々にソートされます。統計的相関関係:ピアソンまたはスピアマン?

0.909090909 0.216196598 
0.909090909 0.111282099 
0.9 0.021432587 
0.9 0.033901106 
... 
0.1 0.003099256 
0 0.001084533 
0 0.008882249 
0 0.006501463 

今私は評価したいものは、最初のシリーズが単調であることを考えると、順序が二直列に保存される程度です。 ピアソン相関は0.454763067ですが、この関係は線形ではないため、この値を解釈するのは難しいと思います。

スピアマンランク相関(この場合は0.670556181)を使用するのが自然な方法です。 Pearsonは0に非常に近いが、Spearmanのランク相関は0.5まで上がるため、ランダムな値では0.67の値が非常に低いように見えることに気付きました。

これらの2つのシリーズの類似性を評価するために、あなたはどのように使用しますか?私は評価したい

答えて

5

度はどの順序が

を保存されていることです、それはあなたが気に順(ランク)ですので、スピアマンの順位相関は、ここではより意味のある測定基準です。

私はスピアマンの順位相関は、あなたがそれらのランダムな値を生成するにはどうすればよい

0.5

に上がる?[...]ランダムな値であることに気づきましたか私はちょうど numpyを使用して生成されたいくつかのランダムな番号を持つシンプルな実験を行ってきた、と私はそれを見ていないです:

In [1]: import numpy as np 

In [2]: import scipy.stats 

In [3]: x = np.random.randn(1000) 

In [4]: y = np.random.randn(1000) 

In [5]: print scipy.stats.spearmanr(x, y) 
(-0.013847401847401847, 0.66184551507218536) 

最初の数(-0.01)は順位相関係数です。 2番目の数字(0.66)はthe associated p-valueです。

+0

私はRANKとCORRELでExcelで遊んでいました。私はRでやるほうがいいと思う... – Mulone

関連する問題