私はノードが4つしかないが、多くのディスクスペース(200TB)を持つhadoop Cloudera
システムを使用しています。豚:4ノードクラスタを持つマップの最適数?
私のpig
のスクリプトでは、約200Gbというサイズの月間ファイルがいくつか読み込まれています。
豚のスクリプトに約1年間のデータを読み込むと、Pigは約15k mappers
を作成し、処理には約3時間かかります(reduce
ステップを含む)。
私はデータの3年間(約5TB)をロードする場合は代わりに、そして豚を約30K mappers
を作成し、基本的にすべてのノードが15時間以上処理した後に不健康になります。
ここで何らかのボトルネックがありますか? また、いくつかのデフォルトオプションがありますか?私の豚のスクリプトは非常に基本的です:私はグループ化する、私は数えます。
多くの感謝!
このノードのメモリと各コンテナに設定したサイズはどれですか –
ありがとうSachin!これは私が\t false'を は '合計PMEMは' PMEMの執行が\t true'を '合計VCoresを有効に120 GB' コンテナ\t用に割り当てられた有効252.00 GB' ' VMEM執行コンテナ\tに割り当てられた合計のHadoopサーバー 'VMEMから見たものですコンテナに割り当てられました\t 16' 'NodeHealthyStatus \t true' –
コンテナごとにメモリを送信できますか?また上記の設定を見ると、より多くのマッパーが必要になるようですが、メモリの制限のために並列性の多くを達成することはできません。ソリューションは、コンテナを生成するノードの数を増やしたり、再度ノードごとのコンテナの数を増やす –