2016-12-06 14 views

答えて

1

すべての計算はDataprocで実行され、その計算を行うために必要なデータは、その作業を行うためにネットワーク経由でDataprocに転送する必要があります。

これは、スキャン時にフィルタを設定すると、Bigapableサービスがそのフィルタリングを実行してからDataprocで実行中のジョブにデータを返すことです。

+0

大量のデータを格納するためにBigtableではなくDataprocクラスタのワーカーノードによって提供されるHFSを使用する方が良いでしょうか?最近のデータをスキャンし、行キーで任意の行を要求する必要がないSparkジョブを実行します。 –

+0

これはちょっとしたヘアデザインの問題で、他の要因に大きく依存しています。一括データ分析のみに使用されているデータがある場合は、データをCloud Storageに保存し、それを処理するためにDataprocまたはDataflowを使用することを検討することができます。これにより、コンピューティングリソースが不要なときにシャットダウンすることができます。 HDFSにデータを格納する場合、クラスタは常にオンでなければなりません。 –

関連する問題