2016-05-19 5 views
0

同じPIGスクリプトの倍数「インスタンス」を持つワークフローの実行時間を、特定のクラスタ(512GB RAM、100 vCores)に対して最小化しようとしています。PIG:PARALLEL句にどのように良い値を選ぶか?

COGROUP操作のPARALLEL句の値を大きくすると、より良い結果が得られます。しかし、そのような句のために良い価値を拾うための式はありますか? PIGのドキュメントはそれについて非常に避けています!

+0

HDFSブロックサイズは何ですか? – madbitloman

+0

こんにちは、HDFSのブロックサイズは1GBです、ありがとう! – drwho2

答えて

0

残念ながら、リダクターの数を定義することは厳しいルールではなく、経験的にCOGROUPの実行時間のフェーズを調査し、PARALELLのさまざまな値で遊ぶことができます(経験から100で始めることを推奨します)。

しかし、上限は、通常、numReduces < < heapSize /(2 * io.buffer.size)と定義されます。詳細はこちらhere

関連する問題