0
Dataprocのドキュメントから、pysparkを使用してBigQueryからデータを読み取ることは可能ですが、ndarrays代わりにCloudStorageのファイル表現を読み取るという形(xxxxxxx)を持つとPythonを使用してkmeansクラスタリングを計算する場合、DataprocのndarraysのデータソースとしてBigQueryを使用する利点がありますか?
Dataprocのドキュメントから、pysparkを使用してBigQueryからデータを読み取ることは可能ですが、ndarrays代わりにCloudStorageのファイル表現を読み取るという形(xxxxxxx)を持つとPythonを使用してkmeansクラスタリングを計算する場合、DataprocのndarraysのデータソースとしてBigQueryを使用する利点がありますか?
BigQueryでデータを操作するつもりがない場合は、データをBigQueryに保存しても何の効果もありませんこのユースケースのために。 Hadoopのジョブを実行する前にGoogle クラウドストレージバケットにhttps://cloud.google.com/hadoop/bigquery-connectorパー
、
Hadoopのダウンロードデータ用のBigQueryコネクタ。
つまり、コネクタは述語のプッシュダウンやその他の方法でBigQueryを計算に使用しません。このコネクタは、既にBigQueryで保存または生成しているデータへのアクセスを提供する便利な方法です。
BigQueryをデータソースに含めることで、パフォーマンスの向上が見込まれますか、それともスケーラブルなソリューションが期待されますか? – mobcdi
いいえ。実際には反対です。 Dataprocにアクセスできるようにするには、データをBigQueryからGoogle Cloud Storageにエクスポートする必要があります。そのため、クエリに遅延を追加することになります。 – thomaspark