2017-11-20 22 views
-2

私は2つの列emailidとキーワードを持つテーブルを持っています、そして、私は値がsqlのようなピボット(行列の種類)です。列は個別のキーワードであり、 [emailid] [keyword]に値がある場合は1、そうでない場合はnull、キーワード間の相関関係を見つけようとしています。つまり、2人のユーザーが同じキーワードを検索した場合、どうしたらいいですか?2つの値の間の相関を見つける方法

+0

はStackOverflowのへようこそ。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。まず、(1)あなたのデータと望ましい結果の簡単な例を提供してください。 (2)英語を知っている友人がこれを校正してください。フレーズマーカーと句読点がないと、これを解析することが非常に難しくなります。 – Prune

答えて

0

開始するには、null値を0に置き換える必要があります。 PearsonとSpearmanの相関関係など、さまざまな相関技法を探求することができます。

これは、ピアソン相関のページである:http://learntech.uwe.ac.uk/da/Default.aspx?pageid=1442

from scipy.stats.stats import pearsonr 
a =[1.0001345,0.000656];b=[1.00001345,0.000656] 
print pearsonr(a,b)[0] 

これは総相関または正の相関を意味1.0として出力を与えます。ピアソン相関の出力は、-1.0(ほとんどの負の相関)から1.0(高い正の相関)まで変化する。ここで0は、2つのデータ量の間に相関がないことを意味する。

これについての詳細は、下に見つけることができます。 https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html

関連する問題