1

SparkDatabricks)のデータをGoogle BigQueryに読み込みたいとします。 DatabricksはAmazon S3をサポートしていますが、Googleはサポートしていません。Google BigQueryのデータをSparkに読み込む

Google BigQueryからSpark(データバインド)にデータを読み込む最良の方法は何ですか? BigQuery connectorは私にこれを許可しますか?これはGoogle Cloudストレージにホストされているファイルに対してのみ有効ですか?

答えて

1

BigQueryコネクタは、公開BigQuery APIを使用するクライアントサイドライブラリです。BigQueryエクスポートジョブをGoogle Cloud Storageに実行し、ファイル作成の順序を利用してHadoop処理を早期に開始して全体のスループットを向上させます。

このコードは、Hadoopクラスタの場所を突き止める場所であればどこでも動作します。

大規模なデータを扱う場合、ネットワーク帯域幅のスループットが問題(Googleとのネットワーク接続はどれくらいですか?)があり、Googleのネットワークからデータを読み取っているため、 GCS network egress costsが適用されます。

関連する問題