BigQuery Connectorを使用してBigQueryからデータを読み取ると、すべてのデータが最初にGoogle Cloud Storageにコピーされることがわかりました。このデータをSparkに並列に読み込みますが、大きなテーブルを読み込むとデータステージのコピーに非常に時間がかかります。 BigQueryからSparkにデータを読み込む効率的な方法はありますか?BigQueryからSparkに効率的に読み込みますか?
もう1つの質問:BigQueryから2つのステージ(GCSへのコピー、GCSからの並行読み取り)からの読み取り。スパーククラスタサイズの影響を受けるコピーステージ、または一定の時間がかかりますか?
私は2部目の回答を更新しました。 –