2011-07-12 9 views
0

私はいくつかのデータのTBsの数十の記憶を必要とするプロジェクトを持っています。最初は、データのうち、わずかにTBsが保存されます。その後、データは1日あたり5 GBのペースで成長すると予想されます。巨大なデータベースにAmazon Web Services(AWS)を使用できますか?

ビジネスロジックに基づいて、ファイル/テーブルの10,000s(各ファイル/テーブルは〜1 [GB]のデータで構成されます)に分割することができます。

注:任意の時点で、唯一10-20 [GB](たとえば、20のテーブル)私はに対して積極的に照会しますそのhot dataと考えられている。)

Amazon Web Services (AWS)巨大な&クエリを保存するために使用することができますデータ量?

代わりにこのデータを社内に保存したい場合は、この に近づく最も良い方法は何ですか(たとえば、1台のマシンですべてのデータを取得することはできません) ?

+1

AmazonのSimpleDBを使用するデータベースはどれですか? SQLはEC2でホストされていますか?他に何か?また、このデータを1台のマシンにすることはできないというあなたの主張の根拠は何ですか? – JohnFx

+0

私は 'MySQL'または' SQLite'を使うつもりです。どのように数十(例えば、「50」)のTBを1台のマシンに格納できますか? – user3262424

+0

ハードドライブまたはディスクアレイ上の1つのマシンに1バイトを格納するのと同じ方法です。 – JohnFx

答えて

0

ストレージに問題はありません。 Amazonのクラウドは、別の場所にあるコンピュータ(仮想)です。だから、Amazonのクラウドにあるという事実は、巨大なデータセットをそのクラウドの外にあるアプリケーションにプルダウンしない限り、本当にパフォーマンスの式を変えるものではありません。

1日あたり5GBのデータを転送することはより困難な問題になる可能性がありますが、実行可能なようです。データ形式に関する情報を欠く

+0

ありがとうございます。 「Amazon」を使って、この巨大なデータベース(数十TBのサイズ)に対して本当に照会できますか?良いパフォーマンスが期待できますか? 1日の '5GB'の転送は問題ではありません。' 5GB'は 'EC2'インスタンスによって生成されるからです。 – user3262424

+0

アマゾンは赤ちゃんです。それは単なるリモートコンピュータです。これは、あなたが使用しようとしているDBプラットフォームが何であるかを尋ねるべきです。これは、Dellコンピュータがこのような巨大なデータベースを処理できるかどうかを尋ねるようなものです。 – JohnFx

+0

JohnFx、ありがとう。だからおそらく、そのような要件をサポートするためにはどんなハードウェアが必要ですか?行くべき正しい道は何ですか?もちろん、私は 'Linux'システム(' Ubuntu'が望ましい)だけを使用します。 – user3262424

1

、スキーマなどは、ここで私はそれを処理したい方法は次のとおりです。

  • 店いくつかの地図ではS3のデータは/削減やすい形式
  • 使用Hadoopの(または弾性地図を削減します)を使用して、必要なときにデータセット全体を照会します。典型的なパターンは、事前に必要なすべての回答を得るためにM/Rを使用し、他のデータベースにはるかに小さい結果を格納することです。
  • 実際にSQLで20GBの「ホットデータ」が必要な場合は、おそらくAmazon RDS(MySQL)に読み込むためのETLをいくつか持っているかもしれませんが、M/Rを使用できるのであれば、私の質問にすべて答え、小さくて最適なデータセットを持っています。
0

いいえ、私は思いません。 hughデータベースではありません。

これらは特別なハードウェアを購入する領域です。たとえば、Oracle ExaData(私の最後のデータウェアハウスは20.000GBでした。

問題がある:

  • バックアップ。はい、Amazonは時々データを失います - 起こった。
  • 大量のデータをロードしています。
  • リソース。あなたは、最高の仮想マシンよりも多くのことを必要とするでしょう。チューニングは、ハードウェアを制御しない場合には苦痛です。
  • 費用本当に。 24/7まではアマゾンで高価です。

マップ/リクルートを有効にすることができる場合は、そうすることができます。 Buta 96 core Oracle RACのインストール(Exadataの用語では小さい)は、Amazonで試してみたいことではありません。

そして、彼らは特別なハードウェアを持っていません。 Oracle ExaData RAIDコントローラと同様に、不要な行を(ストレージ・インデックスを使用して)フィルタリングしています。

だから、私は言うでしょう:いいえ。

関連する問題