データベースに非常に速く(理想的には30分未満ですが速い方が良い)大量のデータ(50億行以上)をロードする必要があり、最近postgresqlを調べるよう提案されました(失敗しましたmysqlとhbase/cassandraを見ていました)。私の設定では、多くのデータを生成するクラスタ(現在は8台のサーバ)があり、クラスタ内の各マシンでデータベースをローカルで素早くローカルに実行し、最後に(またはデータを生成して)一緒に合併した。データはどの順序でもないので、特定のサーバーが(最終的にはそこにある限り)オンには関係ありません。自動シャーリングpostgresql?
私の質問は、PostgreSQLの自動シャーディングについて学ぶ良いチュートリアルや場所があるかどうかです(私はsykpeが自動シャーディングをしているがチュートリアルはしていないような企業の結果を見つけました。私がしようとしていることは可能ですか?データが順不同であるため、自動増分ID番号を使用するつもりでしたが、データがマージされた場合にコンフリクトが発生しますか(これはもう大きな問題ではありません)。
更新:私が尋ねていた自動インクリメントの矛盾の問題は、以下のようなFrankの考えでは解消されました。質問は基本的に今、私はどのように自動シャーディングについて学ぶことができ、複数のサーバーへのデータの分散アップロードをサポートしますか?ここで
私は5分未満でpostgresデータベースに1000万行をロードしました。これは、単一のシャードにデータをロードするとき、これが非常に重要なリソースであることを自信を持って伝えます:http:// www .postgresql.org/docs/8.1/static/populate.htmlこれも有望そうです:http://pgbulkload.projects.postgresql.org/ –
'自動インクリメントID番号を使用しようとしていました。データはマージされますか? '10だけインクリメントし、異なるオフセットから開始します。サーバー1はID 1,11,21,31を使用します。サーバー2はID 2,12,22,32を使用します –
@FrankFarmerリンクと素晴らしいアイデアを再ありがとう:ありがとう。私は複雑さのいくつかを取り除くと思う、私は質問がオートシャーディングと分散アップロードにのみ関連していると思います。 – Lostsoul