BigQueryのデータをdataprocのspark clusterに読み込んでいます。私のケースのBigQueryテーブルのデータが元々GCSから読み込まれている場合は、まずdataproc(newAPIHadoopRDD)のBigQueryコネクタからGoogle Cloud Storageバケットにデータをダウンロードするので、GCSのデータをsparkクラスタに直接読み込む方が良いでしょうか?これらの2つの方法の間の長所と短所はありますか?BigQueryまたはCloud Storage GCSのデータをDataprocに読み取る
0
A
答えて
0
BigQueryコネクタを使用すると、GCSのエクスポート/インポートを可能な限り抽象化し、GCS内のデータセットを明示的に管理したくない場合に最適です。
すでにGCSの内部にデータセットがある場合は、GCSデータセットを直接使用して、より簡単なファイルシステムインターフェイスを直接使用できるだけでなく、追加のエクスポート手順を避けてください。欠点は、データセットの2つのコピー(GCSに1つとBQに1つ)を維持し、それらを同期させておくほうがコストがかかります。しかし、サイズが制限されておらず、データが頻繁に更新されない場合は、GCSデータセットを直接アクセスできるように保つのが最も簡単です。
関連する問題
- 1. Google Cloud StorageからBigQueryにデータを読み込む
- 2. Cloud StorageからBigQueryへのデータのストリーミング
- 3. google-cloud-storageでgcsからs3にデータを転送する
- 4. Cloud Storage Jsonからデータを読み込む際にBigQueryエラーが発生しました
- 5. Google Cloud Storageデータをbigtableに読み込み
- 6. Google BigQuery - Google Cloud Storageから直接データをアップロードする
- 7. Google Cloud Storageデータのバックアップオプションまたはスナップショット?
- 8. PySpark + Google Cloud Storage(wholeTextFiles)
- 9. Google Cloud DataFlowジョブのGCSからBLOB(ピクル)ファイルを読み取る方法は?
- 10. Google BigQueryからGoogle Cloud Bigtableにデータを読み込む方法
- 11. Google Cloud Storage、読み取り/書き込みの制限
- 12. Google Cloud Storageからの読み取り中にエラーが発生しました
- 13. Google Cloud StorageからZipファイルを読み取る方法
- 14. Google Cloud StorageからJavaでファイルを読み取る方法
- 15. GCS、GCS付きGCS、403 GCSバケットへの書き込みが不十分です
- 16. GCSから入力データを読み取る
- 17. BigQueryからGoogle Cloud Storageにテーブルをエクスポートできません
- 18. Google Cloud ShellとCloud Storage - GCSアドレスにアクセスする権限が拒否されました
- 19. Google Cloud Storageドメインロック
- 20. DataprocのBigQueryとPyspark
- 21. GCSからBigQueryにバックアップデータを読み込むことができません
- 22. GCSからBigQueryにファイルを読み込む - 最適なアプローチは何ですか?
- 23. Google Cloud Storageを使用したGitラージファイルストレージ
- 24. Pythonを使用してCloud StorageからBigQueryにテーブルをロード
- 25. DataprocにCloud SQL Proxyをインストール
- 26. DataflowのBigQueryがCloud Storageからデータをロードできません:非レコードフィールドに指定されたJSONオブジェクト
- 27. BigQueryテーブルJSON形式のデータを読み取るURL
- 28. numpy npzファイルをgoogle-cloud-mlジョブまたはGoogle Cloud Storageから読み込む方法は?
- 29. Google Cloud Storageの履歴データをPythonを使用して日付分割されたbigqueryテーブルに移動する
- 30. BlobKeyからGoogle Cloud Storageファイルを取得