2009-05-24 4 views
0

size/volume/physics(メトリック、ギガバイト/テラバイト)が要素数とラベルだけに関係しないと仮定すると、統計的パターンは既に30個のサブセットで出現するはずですが、1000個未満のサブセットテストするにはあまりにも少なく、少なくとも10000の異なるサブセット/「要素」、「エントリ」/エンティティは「大きなデータセット」です。それ以上? おかげ「大きな」データセットはいくつですか?

+1

データセットが含まれているデータの種類と、そのデータセットで実行する統計分析を指定する必要があります。 – akappa

+0

@akappaが言っているように、文脈がなければ、言うことは不可能です。 –

+2

無限のストレージでは、データセットは "大"ではありません:-) –

答えて

3

私は私はあなたの質問を理解していないが、あなたは、データの多くの要素はあなたがある程度の精度を確保するために(30でサンプリングする必要がある設定方法について質問しようとしているように聞こえるが魔法であります頻繁に遊ぶために来る中心極限定理からの数)。

この場合、必要なサンプルサイズは信頼水準と信頼区間によって異なります。 95%の信頼水準と5%の信頼区間が必要な場合(つまり、サンプルから決定した割合が完全なデータセットの割合の5%以内であることを95%確信したい場合)、サンプルサイズは385要素以下です。信頼水準が高く、生成する信頼区間が小さいほど、必要な標本サイズが大きくなります。

数値を実行したい場合は、mathematics of determining sample size と便利なsample size calculatorについての素晴らしいディスカッションです。

関連する問題