1
Google Dataprocクラスタを使用して、Bigtableに対してSpark M/Rジョブを実行しています。 マップステージを実行するためにBigtableからDataprocクラスタにネットワーク経由で送信されるデータは、物理的にBigtableクラスタ上で実行されますか?Bigtableはネットワークを介してDataprocにマップステージを実行するためのデータを送信しますか?
Google Dataprocクラスタを使用して、Bigtableに対してSpark M/Rジョブを実行しています。 マップステージを実行するためにBigtableからDataprocクラスタにネットワーク経由で送信されるデータは、物理的にBigtableクラスタ上で実行されますか?Bigtableはネットワークを介してDataprocにマップステージを実行するためのデータを送信しますか?
すべての計算はDataprocで実行され、その計算を行うために必要なデータは、その作業を行うためにネットワーク経由でDataprocに転送する必要があります。
これは、スキャン時にフィルタを設定すると、Bigapableサービスがそのフィルタリングを実行してからDataprocで実行中のジョブにデータを返すことです。
大量のデータを格納するためにBigtableではなくDataprocクラスタのワーカーノードによって提供されるHFSを使用する方が良いでしょうか?最近のデータをスキャンし、行キーで任意の行を要求する必要がないSparkジョブを実行します。 –
これはちょっとしたヘアデザインの問題で、他の要因に大きく依存しています。一括データ分析のみに使用されているデータがある場合は、データをCloud Storageに保存し、それを処理するためにDataprocまたはDataflowを使用することを検討することができます。これにより、コンピューティングリソースが不要なときにシャットダウンすることができます。 HDFSにデータを格納する場合、クラスタは常にオンでなければなりません。 –