2017-11-02 29 views
1

いくつかの異なる平均の平均をとるにはどうしたらいいですか?あなたが見ることができるように、私は別のヶ月間の異なるサンプルサイズを持つ平均の平均 - 異なるサンプルサイズの平均を集計する方法

library(dplyr) 
month <- c("January", "January","January", "February", "March", "April", "April", "May", "June", "July") 
year <- c(2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014) 
v1 <- c(0, 1, 0, 1, 0, 0, 1, 0, 1, 1) 
df <- data.frame(month, year, v1) 

:ここ

は、いくつかのデータです。 1月のサンプルサイズは、私は毎月の平均を得て、それらのそれぞれの平均値を取ることができ

など、4月のサンプルサイズは2、3:

df %>% group_by(year, month) %>% summarize_all(mean) 

しかし、どのように私はを得るのですか正確なは、私が数ヶ月の平均を持っていることを考えると、2014年を意味します。

+0

これは統計的な質問ですか?各行があなたのデータに現れるサンプルであると仮定すると 'group_by(year)'だけです。代わりに、あなたは 'weighted.mean()'を使うことができます – ssp3nc3r

+0

はい、私は統計的な質問であると思います。毎月の平均が異なるサンプルサイズで作成されていることを前提とすると、何らかの重み付けが必要なのかどうかはわかりません。 –

+0

クロスバリデーションに投稿することで、統計的な質問に役立つ可能性がより高くなります。https://stats.stackexchange.com – ssp3nc3r

答えて

1

平均のどちらの方法があなたに同じ値を与える:ここで

は、単純に年平均を取っている:

df %>% group_by(year) %>% 
    summarise(year_avg = mean(v1)) 

は、各月が異なるサンプルを持っている毎月の平均値の平均を取ると比較する:

df %>% group_by(year, month) %>% 
    summarise(month_avg = mean(v1), samples = n()) %>% 
    summarise(year_avg = weighted.mean(month_avg, samples)) 
+0

これは役に立ちます、ありがとうございます! –

1

コメントするコメントはまだありません。あなたの質問は不明です、何を計算したいですか?平均を月にとしますか?

いくつかの月にデータが不足しているため、私は毎月の平均を計算するのが適切かどうか疑問に思います。 2014年の単純な平均値を求めるだけなら、グループ化する必要はなく、サンプル平均を計算することができます。

+0

私は毎月のデータに平均値を取って集計しています。しかし、私は毎月の平均を見るだけでなく、その年の平均についても興味があることに興味があります。 今月のレベルで計算されたいくつかの手段の平均を取ろうとするのではなく、集計されていないデータから平均を取ることができるようになりました。 –