Hadoopファイル分割と複数のマッパーに関する一般的な質問があります。私はHadoopが新しく、最適なパフォーマンスを得るためのセットアップ方法を手に入れようとしています。私のプロジェクトは現在GZIPされているWARCファイルを処理しています。HadoopプロセスのWARCファイル
現在のInputFileFormatを使用すると、ファイルは1つのマッパーに送信され、分割されません。私はこれが暗号化されたファイルの正しい動作であると理解しています。ジョブを分割してより多くのマッパーを使用できるようにジョブを実行する前に、ファイルを中間ステップとして復号化することによるパフォーマンス上の利点がありますか? それは可能でしょうか?より多くのマッパーを持つことは待ち時間のオーバーヘッドを増やすか、マッパーを1つ持つ方が良いでしょうか?ご協力いただきありがとうございます。
基本的には、実行場所によって異なります。あなたが単一のマシンでそれを実行している場合、私は多くのパフォーマンスの改善があるとは思わない。しかし、あなたが分散環境でそれを実行しているなら、はいがあります。ファイルを分割して複数のマッパーに送信し、複数のマッパーは同時に他のマシンで同時に実行できます。あなたが答えを早く得るように。プログラムが1台のマシンで10時間稼動しているとします。あなたが10台のマシンを持っていて、10台のマシンにマップすると、1時間の実行で同時に結果が表示されます。 –
ありがとうございます。 Amazon Elastic Map Reduceサービスを使用して処理しています。現在の設定を使用して、私はただ1つのマッパーを利用しています。つまり、他のノードが空いていることを意味します。理想的には、プロビジョニングしたすべてのノードを利用するために、ファイルを複数のマッパーに分割したいと考えています。私は、ファイルをローカルストレージに復号化してから、hadoopシステムを通して複数のマッパーに分割できるかどうかについて私の質問に答えてきたと思います。 – user1738628