Q

Pythonを使用してkmeansクラスタリングを計算する場合、DataprocのndarraysのデータソースとしてBigQueryを使用する利点がありますか？

2016-07-21 4 views 0 likes

0

Dataprocのドキュメントから、pysparkを使用してBigQueryからデータを読み取ることは可能ですが、ndarrays代わりにCloudStorageのファイル表現を読み取るという形（xxxxxxx）を持つとPythonを使用してkmeansクラスタリングを計算する場合、DataprocのndarraysのデータソースとしてBigQueryを使用する利点がありますか？

2016-07-21 mobcdi

A

答えて

1

BigQueryでデータを操作するつもりがない場合は、データをBigQueryに保存しても何の効果もありませんこのユースケースのために。 Hadoopのジョブを実行する前にGoogle クラウドストレージバケットにhttps://cloud.google.com/hadoop/bigquery-connectorパー

、

Hadoopのダウンロードデータ用のBigQueryコネクタ。

つまり、コネクタは述語のプッシュダウンやその他の方法でBigQueryを計算に使用しません。このコネクタは、既にBigQueryで保存または生成しているデータへのアクセスを提供する便利な方法です。

2016-07-29 21:54:43 thomaspark

+0

BigQueryをデータソースに含めることで、パフォーマンスの向上が見込まれますか、それともスケーラブルなソリューションが期待されますか？ – mobcdi

+0

いいえ。実際には反対です。 Dataprocにアクセスできるようにするには、データをBigQueryからGoogle Cloud Storageにエクスポートする必要があります。そのため、クエリに遅延を追加することになります。 – thomaspark

関連する問題