2017-05-24 11 views
0

Google Cloud Dataflowは、マルチコアプロセッサを自動的に活用するのに十分スマートですか?データフローの並列動作

I.E.単一コアのみを使用するParDoがあり、単一のワーカーを使用していますが、--workerMachineType = n1-standard-2を渡した場合、Dataflowは2つのパラレルParDoインスタンスを実行しますか?

答えて

0

はいDataflowはマルチスレッドを実行し、同じワーカーで複数のParDoインスタンスを実行します。

ただし、GroupByKeyを使用すると、ParDoは特定のキーの要素を順番に処理することに注意してください。あなたは一度に複数のキーを処理しているので、あなたは依然として作業者の並列性を達成しています。ただし、すべてのデータが単一の「ホットキー」に含まれていると、良好な並列性が得られないことがあります。

関連する問題