0
Google Cloud Dataflowは、マルチコアプロセッサを自動的に活用するのに十分スマートですか?データフローの並列動作
I.E.単一コアのみを使用するParDoがあり、単一のワーカーを使用していますが、--workerMachineType = n1-standard-2を渡した場合、Dataflowは2つのパラレルParDoインスタンスを実行しますか?
Google Cloud Dataflowは、マルチコアプロセッサを自動的に活用するのに十分スマートですか?データフローの並列動作
I.E.単一コアのみを使用するParDoがあり、単一のワーカーを使用していますが、--workerMachineType = n1-standard-2を渡した場合、Dataflowは2つのパラレルParDoインスタンスを実行しますか?
はいDataflowはマルチスレッドを実行し、同じワーカーで複数のParDoインスタンスを実行します。
ただし、GroupByKeyを使用すると、ParDoは特定のキーの要素を順番に処理することに注意してください。あなたは一度に複数のキーを処理しているので、あなたは依然として作業者の並列性を達成しています。ただし、すべてのデータが単一の「ホットキー」に含まれていると、良好な並列性が得られないことがあります。