兆行のパブリックデータセット？

私はデータベース上でいくつかのベンチマークを実行しています.1T以上の行を含む公に利用可能なデータセットがあるかどうか疑問に思っていましたか？兆行のパブリックデータセット？

私は、Google Big Queryが、100M +（ウィキペディア、gdeltイベント）と1B +（nyc-tlc）行の公開データセットをいくつか持っていますが、それ以上のものは見つかりませんでした。ダウンロードすることができる1T行のデータセットを知っている人はいますか？

いくつかの参照リンク：

2017-02-09 David542

慎重にクエリを記述しないと、1兆行のデータセットで大量の処理を行うと、高価になる可能性があります。開始する前にいくつかの計算を行います。 –

ベンチマークウィキテーブルがあります。それは私が見た最大の公開テーブルを持っています。最大のテーブルは106B行（6.76TB）です。本当に1兆行も必要な場合は、〜10 *コピーアペンドジョブを実行するだけです！

2017-02-09 00:49:19

それだけでデータセットを生成することが容易ではないでしょうか？確かに、その価値観の分布と相関性がどれほど現実的であるか、そしてこれが測定されたパフォーマンスにどれほど大きな影響を与えるかという疑問が残っています。

クラスタが直線的に拡大縮小すると仮定すると、データの5％と本番クラスタを持つと予想されるノード数の5％でベンチマークできます。データセットのサイズにかかわらず、必要な数のリクエスト/分を実行できるようにノードの数を選択するだけです。

このサイズのデータベースのバックアップを取ることは、特にそれが絶えず更新されている場合、非常に興味深い問題でなければなりません。

2017-02-12 17:49:24 NikoNyrh

多くのデータを生成するには時間がかかり、多くの馬力が必要です。 $$$ –

データを生成するための実生活シミュレーションを行わないと仮定すると、それをインターネット経由で転送してDBに保存する前にセカンダリディスクに保存するよりも安いはずです。ウィキペディアのベンチマークテーブルが本当にうまく圧縮されているようなOTOH！ – NikoNyrh

テーブル/データは既にBigQueryにあります。つまり、インターネット経由での転送や「セカンダリディスク」への格納はできません。 Googleのパイプ/インフラストラクチャ、つまりペタビットネットワークですべてを実行しています。 –

答えて