テラバイト範囲のデータボリュームを処理し、高可用性(5ナイン)のMySQLデータベースを提供するソリューションを検討する必要があります。各データベース行には、タイムスタンプと最大30個の浮動小数点値が含まれている可能性があります。予想されるワークロードは最大2500インサート/秒です。クエリは頻繁ではない可能性がありますが、おそらく単一のテーブルだけでは大規模(おそらく100Gbのデータを含む)になる可能性があります。MySQLクラスタでテラバイトのデータベースを扱うことができます
私は、HA提供のMySQL Clusterを見ています。大量のデータのために、私はディスクベースのストレージを利用する必要があります。現実的には、タイムスタンプだけがメモリに保持され、他のすべてのデータはディスクに格納する必要があると私は考える。
この規模のデータベースでMySQL Clusterを使用した経験がある人はいますか?それは実行可能ですか?ディスクベースのストレージはどのようにパフォーマンスに影響しますか?
このボリュームのデータを希望の可用性を達成する方法については、他の提案もあります。たとえば、Sequoiaのようなサードパーティライブラリを使用して、標準のMySQLインスタンスのクラスタリングを処理する方が良いでしょうか?または、MySQLレプリケーションに基づいた、よりストレートなソリューションですか?
唯一の条件は、MySQLベースのソリューションでなければならないということです。 MySQLは、私たちが扱っているデータのための最良の方法だとは思っていませんが、それは難しい要件です。
技術を買い物にしている場合は、GoogleのBigTableに基づくいくつかのプロジェクトを検討することができます。 HadoopのHBase、Hypertableは見て興味深いプロジェクトです。 http://hadoop.apache.org/hbase/とhttp://www.hypertable.org/ – Kekoa
この質問は、serverfault.comでよく聞かれるかもしれません。 – lothar