4
ドリルを2つの別々のデータベースに接続し、それぞれから大量のデータを取得してからジョインするクエリを実行するとします。Apache Drillはどのように大きな結果セットを処理しますか?
メモリ不足エラーを発生させずにドリルでどのように処理できますか?これは、要求しているデータが、ドリルが使用できるメモリの量を超えていることを前提としています。
ドリルを2つの別々のデータベースに接続し、それぞれから大量のデータを取得してからジョインするクエリを実行するとします。Apache Drillはどのように大きな結果セットを処理しますか?
メモリ不足エラーを発生させずにドリルでどのように処理できますか?これは、要求しているデータが、ドリルが使用できるメモリの量を超えていることを前提としています。
以下のドリルのドキュメントを確認してください。シングルラップトップから
ドリルスケール1000ノードクラスタへ
ドリルはあなたのラップトップ上で実行できる簡単なダウンロードとして提供されています。大規模なデータセットを分析する準備ができたら、Hadoopクラスタにドリルをデプロイします(1000台までのコモディティサーバ)。ドリルは、クラスタ内の集計メモリを活用して、最適なパイプラインモデルを使用してクエリを実行し、ワーキングセットがメモリに収まらない場合に自動的にディスクに流出します。
私はそれがあるとは思わない。レベルに役立ついくつかのプロパティがあります。我々は大量のデータを扱うときに、OutOfMemoryを非常に頻繁にスローします。私は答えを知ることも好奇心です。 –