私はhadoopを初めて使い、ローカルマシンでいくつかのテストを行っています。Hadoop:小さなファイル用にCombineFileInputFormatを使用するとパフォーマンスが向上しますか?
多くの小さなファイルを処理する多くのソリューションがあります。私はCombinedInputFormatを使用しています。これはCombineFileInputFormatです。
マッパーの数が100から25に変更されたのを確認します。CombinedInputFormatまた、マッパーの数が減ったためにパフォーマンスの向上が期待できますか?
私はなしCombinedInputFormat多数の小さなファイルにマップ-削減の仕事を行っています100のマッパーは10分
を取ったが、仕事をマップは、減らすときはCombinedInputFormatとを実行しました。 マッパは25分33分でした。
ご協力いただければ幸いです。
私は3つのノードクラスタを持つawsでこの例を実行しようとしましたが、パフォーマンスの改善は見られませんでした。合計1000個の小さなファイル。マッパーの数が1000から67に減少しました。 – Astro