2

BigQuery Connectorを使用してBigQueryからデータを読み取ると、すべてのデータが最初にGoogle Cloud Storageにコピーされることがわかりました。このデータをSparkに並列に読み込みますが、大きなテーブルを読み込むとデータステージのコピーに非常に時間がかかります。 BigQueryからSparkにデータを読み込む効率的な方法はありますか?BigQueryからSparkに効率的に読み込みますか?

もう1つの質問:BigQueryから2つのステージ(GCSへのコピー、GCSからの並行読み取り)からの読み取り。スパーククラスタサイズの影響を受けるコピーステージ、または一定の時間がかかりますか?

+1

私は2部目の回答を更新しました。 –

答えて

3

Google社員が私を修正しますが、AFAIKが唯一の方法です。

のHadoopジョブを実行する前にGoogleのクラウドストレージバケットへのHadoopデータをダウンロード用のBigQueryコネクタ..

:ボンネットの下に、それはまた docsにaccordng HadoopのためのBigQueryコネクタを、使用しているためです

Dataflowを使用する場合も同様です.GUIへのBigQueryテーブルのエクスポートも最初に実行してから、それらを並行して読み込みます。

WRTコピーステージ(本質的にBigQueryエクスポートジョブ)がSparkクラスタサイズの影響を受けるかどうか、または固定時間であるかどうか。 BigQueryのエクスポートジョブは非決定的で、BigQueryは独自のリソースを使用してGCSにエクスポートします。つまり、Sparkクラスタではありません。

+0

ねえ、私はBigQueryで3.83TBのテーブルを持っています。私はあまりにも火花のコネクタを使用してBigqueryのこのテーブルに火花を接続しようとしていますが、それは長い時間(10から15分)を待ってから作成されたshardedファイルを示していません。 このような長い時間の間、アイドル状態を維持することが期待されますか。私は同じコネクタを使用して小さなテーブルを読み取ることができます。 –

関連する問題