2011-10-15 12 views
8

データ350Gb(毎週GBの成長カップル)をチャーンするクラスタ(hadoop、pig)があります。データ分析のためのNoSQLまたはMySQL

これらのデータは、すべてアナリティクスで利用可能にする必要があります。

スタースキーマを持つMsyqlソリューションがあります(これにはデータの一部のみがロードされています)。しかし

これをどれくらい伸ばすことができますか?

データアナリティクスのためにHiveのようなNoSQLを見ていますか?

私はこの記事http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

どのようにビッグビッグデータであり、ときに私は離れてのMySQLから探すべきを読みますか? Mysqlの構造的剛性は問題を引き起こしますか?

現在のところ、データはわずか数GB(MySQL版)ですが、確かに成長します。 MySQLクラスタリングはどうですか?

私はこの道をまっすぐに下っていくべきですか?

答えて

14

350Gb(GBの成長カップル週)...これらのすべてのデータを解析

のために利用可能にする必要がありますが、家でのMySQLの達人を持っていますか?はいの場合は、MySQLクラスタを作成して拡張するだけです。この解決策の唯一の問題は、それがMySQLであるということではなく、ではなく、 NoSQL =>それは文字通りエキスパートが必要であり、常にあなたの側にある必要があるためです。変更する必要があります。しかし、what => SQLがMUCHの方が、map/reduc'ish SQLシミュレーションよりも解析がより簡単で簡単です。

何かになるとになります。MySQLソリューションの後の問題は、です。です。ですから、無料で使用できるMySQLの機能と、あなたが支払う必要のある機能を理解しておいてください。

ではなくにMySQLのエキスパートがいらっしゃった場合、または1人でお支払いいただきたくない場合は、NoSQLにお任せください。 NoSQL製品の専門知識は必要ありませんが、Xノードを単一のシステムとして構成して実行することは、NoSQLソリューションにとって非常に簡単で自然なプロセスです。

たとえば、Riakやその他のNoSQL獣では、ほとんど何もする必要がなく、ほとんどの配信の複雑さが製品によって解決されます。>本当に簡単です。

NoSQLで支払う代金は、の最終的にはのSQLを失います(素晴らしい集約機能について考えてください)。また、厳密に分析を行っている場合、一貫性は全く価格ではないかもしれません。

あなたは非常に自然なビッグデータ処理、フォールトトレランスとmuch moreを取得します。

あなたがHadooooxyzのスペースにいて、お支払いに問題がなければ、Hadaptをご覧ください。これはHiveの5倍の性能を約束します。

1

あなたはこの比較質問のようなもので概説した問題の種類持つ起動したときに切り替えます。それ以外はhttps://dba.stackexchange.com/questions/5/what-are-the-differences-between-nosql-and-a-traditional-rdbms

をあなたがもたらすことはありませんので、それは、一般的なアドバイスを超えて質問に答えるには少し難しいですあなたが解決しようとしている特定の問題(例えば、スケーリング、読み込み速度、100%の一貫性が必要な問題など)。

+0

私はmysqlにますます多くのデータを送り込もうとしていますか? – AlgoMan

+0

どのように使用されているか、DBの使用方法とその基礎となる設計がパフォーマンスにどのように影響を及ぼし、ビジネス上のニーズにどのように役立つかは、格納されるデータの量にはあまり関係ありません。私は、(a)NoSQLは決してMySQLの代替品ではなく、もう一つの選択肢であり、(b)「正しい仕事のための正しいツール」なのです。 – jefflunt

2

質問はもちろん数ヶ月前ですが、最近分析の対象となった非常にスケーラブルなMapReduceベースのBig DataエンジンにMySQLフロントエンドを導入したInfiniDBを訪れました。これは、この問題の解決策である可能性があります。原則として、管理をほとんど必要とせず、コードの変更をほとんど必要としません。 1つのボックスまたは複数のサーバー上でのスケールアップがサポートされています。

1

InfiniDBは無料ではありません。

は、データベースのセットシャードシェアード・ナッシングの上に地図-削減のようにこれはhttp://code.google.com/p/shard-query

をチェックしてください。 STARスキーマに最適です。ファクト表をN個のノードに分割し、各サーバー上のディメンション表を複製します。

あなたはより多くの情報や性能テストの結果については、このブログの記事をチェックアウトすることができます:

FYI

http://www.mysqlperformanceblog.com/2011/05/06/scale-out-mysql/

:私はシャード - クエリの著者です。

関連する問題