非常に大きなデータをどのように処理するのですか？

私は基本的にかなり大きなデータベースを持つべき報告ツールである新しいプロジェクトを開始しようとしています。非常に大きなデータをどのように処理するのですか？

テーブルの数は大きくなく（< 200）、データの大部分（80％）は20個のテーブルに格納され、すべてのデータはほとんど挿入/読み取り専用（更新なし）です。

1つのテーブルの推定データ量は1分あたり240,000レコードに増加する予定であり、さまざまなレポートを作成できるようにするには少なくとも1年から3年を維持する必要があり、管理者によってオンラインで表示されます。

私はその大規模なデータベースとの最初の手の経験を持っていないので、私はDBは、このような状況では最良の選択である持っているものを求めています。私はオラクルが安全な賭けだと知っていますが、誰かがhadoopdbやGoogleの大きなテーブルのようなデータベース以外の経験を持っているならば、もっと興味があります。私を案内してください。事前

出典

2012-04-02 jenitshah

あなたは*本当に*すべてのデータを維持する必要があります：たとえば、私はAcunuがカサンドラの彼らの味に埋め込む分析に何をしているかを見てみたいですか？何とか集約できますか？おそらく生データをバケットにマージしますか？ 1秒あたり4000レコードが少し不気味です。あなたの記録はどれくらいですか？ –

電卓のためにまっすぐ行く人には、私は少し努力を惜しまないでしょう：3年後に378.432億レコード。< – Corbin

あなたの応答のために、@ hewgillさん、ありがとうございます。私のプロジェクトはツールを報告していますので、年を上回っていると報告すると、私はそのデータを年間よりも長く3年間保管しなければなりません。私はデータを集計するが、すべてのレポートの最後に集計された形式ではない単一行の形式でデータを表示する。 – jenitshah

でおかげであなたはまた、ApacheのSolrのとMongoDBのを使用することができます。 Mongo DBとApache SolrはNOSQLのBig Dataを処理するために使用され、データベースへのデータの挿入と取り出しが非常に高速です。 Apache SolrまたはMongoDbデータベースを使用することができます。

出典

2012-04-02 06:26:56

Oracleは十分にスケールアップすることは非常に高価取得する予定です。 MySQLは規模を拡大するのが難しいでしょう。彼らのせいではない。これに対してRDBMSは過剰です。

は私がばかな質問から始めましょう：あなたは、このデータで何をしていますか？「さまざまな報告書」は多くのことになります。これらのレポートをバルク、オフラインで生成できる場合は、データを共有ファイルシステム上のフラットファイルに保存してください。

オンラインである必要がある場合は、過去2年間の人気のある知恵は、Mongo、Couch、CassandraなどのNoSQLデータベースを見ることです。彼らはより簡単で、より速い生き物であり、容易に拡大縮小し、あなたのデータにランダムなアクセスを提供します。 NoSQLの上で分析を行う

は、今年大流行です。 http://www.acunu.com/blogs/andy-twigg/acunu-analytics-preview/

出典

2012-04-02 08:33:31

お返事ありがとうございます。私はオンラインのレポートを管理者に提供しなければならないので、もっとオンラインのdbにする必要があります。私は通常、データを集約して、NOSQLのデータ集約が非常に遅いという主な発見から知りました。それは本当ですか？ – jenitshah

NoSQLデータベースには本来、集約プリミティブはありません。 Acunuのようなものは、正確なリアルタイムのインクリメンタルなリアルタイム分析を構築しているので、これはまさにその理由です。私は男の子を知っていて、彼らがやっていることはこのユースケースではかなり素晴らしいです。 –

非常に大きなデータをどのように処理するのですか？

答えて

関連する問題