2011-12-14 18 views
4

現在AmazonのEC2でPostgres 9を使用しており、パフォーマンスに非常に満足しています。今では、2TBのデータをPostgresに追加する予定です。これは、EC2の小さなインスタンスが保持できるよりも大きいものです。多くのデータを格納/アクセスするためのPostgreSQLとS3QL

私はS3QLを見つけました。それをPostgresデータディレクトリをS3ストレージに移動することと併用することを検討しています。誰かがこれをやった経験がありましたか?私は主にパフォーマンス(頻繁な読み込み、頻繁な書き込み)に関心があります。アドバイスは大歓迎です、ありがとうございます。

+0

非常に興味深い。ステロイドのクラウドNFSのように聞こえる。しかし、その名前は「正確」とは言えません。なぜ「SQL」のように見えるのですか。わかりません。クラウドのファイルシステムやデータベースではないと聞こえます。私はS3QL上のデータベースを使用しようとしているのは疑いがあります...興味深いことに、NFSの場合と同じです。どんな場合でも、データの構造全体を再検討する必要があります。 –

+0

リンクされたサイトから: "* S3QLは、すべてのローカルファイルシステムと概念的に区別できない標準準拠のフル機能の** UNIXファイルシステムです。*" –

+1

PostgreSQLパフォーマンスチューニングマニュアルはNFSまたは "パフォーマンス上の問題とデータ破損の可能性があるため、「ファイルシステム」と呼ばれます。私はEC2とS3の間のリンクがかなり速いのだが、2TBは膨大な量のデータであり、ワイヤを渡ってシリアライズすると思います。私はあなたがコミットする前に、これについていくつかの真剣なテストをするといいでしょう。 –

答えて

1

私のアドバイスは「しないでください」です。私はあなたの問題の文脈について何も知らないが、私は、ソリューションがPostgreSQLを介して大量のデータ処理を行う必要はないと思う。グリッド処理システムが発明された全理由は、大きなデータセットを分析するという問題を解決することでした。私は、寸法データを抽出することに関する標準的なBIプラクティスに従うシステムを構築することを検討すべきだと思います。その後、正規化されたデータを取り出し、それがかなり大きいと仮定してHadoop/Pigにロードします。そこに分析と集約を行います。結果の集計データをファイルにダンプし、をPGデータベースのディメンションにロードします。

+0

はい、私たちはこのショットを与え、結果は良くありませんでした。データアクセスが非常に遅く、起動するのに費用がかかります。結局のところ、Elastic Searchを使用して、親/子のドキュメント関係で必要な方法でデータのインデックスを作成することができました。私たちのために素晴らしい作品。 – Ian

関連する問題