私はnutchとhadoopでいくつかのテストをしています。膨大な量のデータが必要です。 私は20GBから始め、100GB、500GBに行き、ついには1〜2TBに達したいと思います。大量のデータを作成する方法は?
問題は、私はこの量のデータを持っていないため、私はそれを作り出す方法を考えています。
データ自体はどのような種類のものでもかまいません。 1つのアイデアは、最初のデータセットを取り出して複製することです。しかし、それは十分ではないので、お互いに異なるファイルが必要です(同一のファイルは無視されます)。
もう1つのアイデアは、ダミーデータを含むファイルを作成するプログラムを作成することです。
他のアイデアはありますか?
Googleアナリティクスのクエリデータですか? – Sephy
うわー、そのようなプログラムは、実行するのに十分な時間がかかります。 –
乱数を生成するだけでいいですか? –