Bigtableはネットワークを介してDataprocにマップステージを実行するためのデータを送信しますか？

Google Dataprocクラスタを使用して、Bigtableに対してSpark M/Rジョブを実行しています。マップステージを実行するためにBigtableからDataprocクラスタにネットワーク経由で送信されるデータは、物理的にBigtableクラスタ上で実行されますか？Bigtableはネットワークを介してDataprocにマップステージを実行するためのデータを送信しますか？

出典

2016-12-06 Ivan Alikin

すべての計算はDataprocで実行され、その計算を行うために必要なデータは、その作業を行うためにネットワーク経由でDataprocに転送する必要があります。

これは、スキャン時にフィルタを設定すると、Bigapableサービスがそのフィルタリングを実行してからDataprocで実行中のジョブにデータを返すことです。

出典

2016-12-06 21:29:57

大量のデータを格納するためにBigtableではなくDataprocクラスタのワーカーノードによって提供されるHFSを使用する方が良いでしょうか？最近のデータをスキャンし、行キーで任意の行を要求する必要がないSparkジョブを実行します。 –

これはちょっとしたヘアデザインの問題で、他の要因に大きく依存しています。一括データ分析のみに使用されているデータがある場合は、データをCloud Storageに保存し、それを処理するためにDataprocまたはDataflowを使用することを検討することができます。これにより、コンピューティングリソースが不要なときにシャットダウンすることができます。 HDFSにデータを格納する場合、クラスタは常にオンでなければなりません。 –

Bigtableはネットワークを介してDataprocにマップステージを実行するためのデータを送信しますか？

答えて

関連する問題