0

BigQueryのデータをdataprocのspark clusterに読み込んでいます。私のケースのBigQueryテーブルのデータが元々GCSから読み込まれている場合は、まずdataproc(newAPIHadoopRDD)のBigQueryコネクタからGoogle Cloud Storageバケットにデータをダウンロードするので、GCSのデータをsparkクラスタに直接読み込む方が良いでしょうか?これらの2つの方法の間の長所と短所はありますか?BigQueryまたはCloud Storage GCSのデータをDataprocに読み取る

答えて

0

BigQueryコネクタを使用すると、GCSのエクスポート/インポートを可能な限り抽象化し、GCS内のデータセットを明示的に管理したくない場合に最適です。

すでにGCSの内部にデータセットがある場合は、GCSデータセットを直接使用して、より簡単なファイルシステムインターフェイスを直接使用できるだけでなく、追加のエクスポート手順を避けてください。欠点は、データセットの2つのコピー(GCSに1つとBQに1つ)を維持し、それらを同期させておくほうがコストがかかります。しかし、サイズが制限されておらず、データが頻繁に更新されない場合は、GCSデータセットを直接アクセスできるように保つのが最も簡単です。

関連する問題