多項分布からサンプルしたいと思います。私は、サンプルを使用していくつかの確率を指定することでこれを行います。 例:3つのカテゴリがあり、10回サンプルしたいと思います。サンプルを含む多項分布から巨大なサンプル(1e09)を描く
> my_prob = c(0.2, 0.3, 0.5)
> x = sample(c(0:2), 100, replace = T, prob = my_prob)
> head(x)
[1] 2 0 2 1 1 2
私の設定は次の点でのみ異なります。たくさんのサンプル(1e09など)が必要です。実際、私は各カテゴリの頻度にのみ興味があります。 だから、上記の例では、これは意味します:
> table(x)
x
0 1 2
27 29 44
は、誰もがアイデアはどのように可能な限り、このように効率的に計算することがありますか?
おかげで、あなたはrmultinom
が必要 シュテフィ
分析分布式を使用して限界内の度数分布を得ることができた場合、なぜその分布からサンプリングしたいのですか? –
私はあなたが何か苦労しているのを恐れています。どんな統計的有意性を達成するためにも、このような大きなサンプルが必要とは思われません。たとえ非常に長いテールの分布をサンプリングしたいとしても、変換関数を使う方がはるかに良いでしょう。 Googleの「数値レシピ」などのトピック –