2017-09-22 12 views
0

レポートアプリのデータエンジンとしてのApacheドリルの探索を開始しました。同種のデータストアのApacheドリル

私たちはトランザクションデータがすべてRDBMSであるため、PostGresショップです。

NoSQL(MongoDB)への移行は私たちにとって遠い夢であり、今日のようにそれに金を費やす必要はありません。

私たちのデータサイズは大きいですが(それでもPostGresではすべてです)。私たちはいくつかのテーブルを最大数億(たとえば150M)にまで及んでいます。

パフォーマンスは私たちにとって重要です。私たちは、レポートをできるだけ早くエンドユーザーにリアルタイムで生成させたいと考えています。

ネイティブ(直接)Postgresのクエリの時間コストが言うの場合:

は、私は私のユースケースのために、ここで基本的な質問を持っているドリルを経てP 、私はコストがに起こっている想像します次のようになります。P + D、Dはドリルの余分なコストですか?

Postgresがボトルネックであることが判明した場合(インデックスの欠落など)、ドリルは何度も水平にドリルビットを追加しても状況を改善するのに役立ちません。

したがって、私のユースケースのヘルプでDrillを使用すると、PostGresを最適化して直接クエリするよりも、

答えて

0

Apache Drillは、通常、アクセスを統合し、異なるデータベースシステムに参加するために使用されます。 PostgreSQLとMongoDBです。

ここで私の最初の質問は、新しいバージョンの実績のあるデータベースシステムを変更すれば、JSONデータを完全に処理できることでしょうか? MongoDBへの移行を望んでいる主な成功要因は何ですか?

データベースシステムが1つだけの場合は、パフォーマンスを最大限に引き出すことに集中します。異なるシステムを統合するApacheのドリルを使用している場合は、ドリル層の設計いくつかの事実を覚えておく必要があるだろう:あなたのセットアップいくつかのdrillbitsが

  • あなたは、いくつかのdrillbitサーバが必要な場合は、ドリルのための飼育係のノードを必要とする

    • をどの計算能力と大きなメモリを持っている
    • クエリが送信されているときにドリルが基礎となるデータベースをどのように使用するかを理解する必要があります。ドリルは、データベースシステムの大部分を使用して処理を最小限に抑えようとします。ジョイントは、データベースシステムでステートメントが発生するようなものです)。そのため、基盤となるデータベースインフラストラクチャは強力でなければなりません。
  • 関連する問題