BigQueryからSparkに効率的に読み込みますか？

BigQuery Connectorを使用してBigQueryからデータを読み取ると、すべてのデータが最初にGoogle Cloud Storageにコピーされることがわかりました。このデータをSparkに並列に読み込みますが、大きなテーブルを読み込むとデータステージのコピーに非常に時間がかかります。 BigQueryからSparkにデータを読み込む効率的な方法はありますか？BigQueryからSparkに効率的に読み込みますか？

もう1つの質問：BigQueryから2つのステージ（GCSへのコピー、GCSからの並行読み取り）からの読み取り。スパーククラスタサイズの影響を受けるコピーステージ、または一定の時間がかかりますか？

出典

2017-01-04 Mahmoud Hanafy

私は2部目の回答を更新しました。 –

Google社員が私を修正しますが、AFAIKが唯一の方法です。

のHadoopジョブを実行する前にGoogleのクラウドストレージバケットへのHadoopデータをダウンロード用のBigQueryコネクタ..

：ボンネットの下に、それはまた docsにaccordng HadoopのためのBigQueryコネクタを、使用しているためです

Dataflowを使用する場合も同様です.GUIへのBigQueryテーブルのエクスポートも最初に実行してから、それらを並行して読み込みます。

WRTコピーステージ（本質的にBigQueryエクスポートジョブ）がSparkクラスタサイズの影響を受けるかどうか、または固定時間であるかどうか。 BigQueryのエクスポートジョブは非決定的で、BigQueryは独自のリソースを使用してGCSにエクスポートします。つまり、Sparkクラスタではありません。

出典

2017-01-04 11:47:20

ねえ、私はBigQueryで3.83TBのテーブルを持っています。私はあまりにも火花のコネクタを使用してBigqueryのこのテーブルに火花を接続しようとしていますが、それは長い時間（10から15分）を待ってから作成されたshardedファイルを示していません。このような長い時間の間、アイドル状態を維持することが期待されますか。私は同じコネクタを使用して小さなテーブルを読み取ることができます。 –

BigQueryからSparkに効率的に読み込みますか？

答えて

関連する問題