BigQueryまたはCloud Storage GCSのデータをDataprocに読み取る

BigQueryのデータをdataprocのspark clusterに読み込んでいます。私のケースのBigQueryテーブルのデータが元々GCSから読み込まれている場合は、まずdataproc（newAPIHadoopRDD）のBigQueryコネクタからGoogle Cloud Storageバケットにデータをダウンロードするので、GCSのデータをsparkクラスタに直接読み込む方が良いでしょうか？これらの2つの方法の間の長所と短所はありますか？BigQueryまたはCloud Storage GCSのデータをDataprocに読み取る

出典

2017-09-29 bignano

BigQueryコネクタを使用すると、GCSのエクスポート/インポートを可能な限り抽象化し、GCS内のデータセットを明示的に管理したくない場合に最適です。

すでにGCSの内部にデータセットがある場合は、GCSデータセットを直接使用して、より簡単なファイルシステムインターフェイスを直接使用できるだけでなく、追加のエクスポート手順を避けてください。欠点は、データセットの2つのコピー（GCSに1つとBQに1つ）を維持し、それらを同期させておくほうがコストがかかります。しかし、サイズが制限されておらず、データが頻繁に更新されない場合は、GCSデータセットを直接アクセスできるように保つのが最も簡単です。

出典

2017-09-29 21:33:45

BigQueryまたはCloud Storage GCSのデータをDataprocに読み取る

答えて

関連する問題