size/volume/physics(メトリック、ギガバイト/テラバイト)が要素数とラベルだけに関係しないと仮定すると、統計的パターンは既に30個のサブセットで出現するはずですが、1000個未満のサブセットテストするにはあまりにも少なく、少なくとも10000の異なるサブセット/「要素」、「エントリ」/エンティティは「大きなデータセット」です。それ以上? おかげ「大きな」データセットはいくつですか?
0
A
答えて
3
私は私はあなたの質問を理解していないが、あなたは、データの多くの要素はあなたがある程度の精度を確保するために(30でサンプリングする必要がある設定方法について質問しようとしているように聞こえるが魔法であります頻繁に遊ぶために来る中心極限定理からの数)。
この場合、必要なサンプルサイズは信頼水準と信頼区間によって異なります。 95%の信頼水準と5%の信頼区間が必要な場合(つまり、サンプルから決定した割合が完全なデータセットの割合の5%以内であることを95%確信したい場合)、サンプルサイズは385要素以下です。信頼水準が高く、生成する信頼区間が小さいほど、必要な標本サイズが大きくなります。
数値を実行したい場合は、mathematics of determining sample size と便利なsample size calculatorについての素晴らしいディスカッションです。
関連する問題
- 1. 大きなデータセット
- 2. 長いデータセットと大きなデータセットから1つのカラムをクリーニングする
- 3. 大きなデータセットを持つWPFのICollectionView.filter
- 4. 大きなデータセットを持つDictVectorizer
- 5. 大きなデータセットを持つカテゴリデータのエンコーディング
- 6. 大きなデータセットでオートコンプリート
- 7. 大きなデータセットでエンティティフレームワークが遅い
- 8. 大きなデータセットで最も近いベクトルを見つけるC#
- 9. SOLRで大きなデータセットをすばやく取得する
- 10. 大きなデータセットをExcelで小さくする
- 11. RxJavaで2つの大きなデータセットに結合する
- 12. 大きなデータセットとwinforms
- 13. 大きなデータセットを扱う
- 14. 大きなデータセットのAndroidリストビュー
- 15. Django prefetch_related大きなデータセット
- 16. Sigma.jsの大きなデータセット
- 17. 大きなデータセット:mysql_unbuffered_query with innodb?
- 18. ニューラルネットワークと大きなデータセット
- 19. Excel 2013で大きなデータセットを使用できますか?
- 20. 大規模なデータセットでRレベルが正しくない
- 21. 大きなデータセットをインポートするにはどうすればよいですか?
- 22. xarrayでは、多くの小さなcdfsの大きなディスク上のデータセット
- 23. 2つの大きなデータセットの違いを確認するにはどうすればよいですか?
- 24. SSRS - 3つではなく2つのデータセットを接続できます
- 25. 大きなデータセットをすばやくフィルタリングするにはどうすればよいですか?
- 26. 大きなデータセットをソートするJSON
- 27. フォーム間に大きなデータセットを渡す?
- 28. neo4jが大きなデータセットでインデックスを作成しない
- 29. 大きなデータセットで機能しない関数
- 30. 大きなデータセットでカウントソートが機能しない
データセットが含まれているデータの種類と、そのデータセットで実行する統計分析を指定する必要があります。 – akappa
@akappaが言っているように、文脈がなければ、言うことは不可能です。 –
無限のストレージでは、データセットは "大"ではありません:-) –