私は複雑な豚のスクリプトを持っています。そのログから、データボリュームに応じて、2つまたは3つのMRプロセスに順番に跨っていることがわかります。 (& B、言うことができます)pigなぜ複数のmapreduceプロセスが実行されるのですか?
PS:Aが
を完了した後にBにのみトリガが、これは予想されていますか?私の豚のスクリプトのどの部分がプロセスを減らすかを調べる方法はありますか? 私の最終目標は、ブタスクリプトをより速く実行するように最適化することです。
私のタスクのより簡単なバージョンは次のとおりです。このPigスクリプトは、さまざまなアプリケーションからの大量のログファイルを処理します。各ログについて、それは正規表現を使用してデータを解析し、トラフィックカウント、毎時のさまざまな次元の平均レスポンス時間などのレポートメトリック
コードは実際には長く、複数のフィルタに対して1つの結合を行います。複数の次元を持つ。