私は10 GBのcsvファイルを持っており、Hadoop MapReduceで処理したいと思っています。 私は15のノード(データノード)クラスタを持っており、スループットを最大化したいと考えています。圧縮されたファイルVSは、mapreduceの非圧縮ファイルです。どちらが優れたパフォーマンスを与えるのですか?
どのような圧縮形式を使用しますか?またはテキストファイルを圧縮しないと、圧縮されたテキストファイルより常に良い結果が得られます。理由を説明してください。
私は圧縮されていないファイルを使用していました。それはなぜそうですか?
あなたのデータによって異なります。一部のデータは非常にうまく圧縮でき、他のデータはほとんど圧縮できません。私はいくつかお試しいただき、あなたのデータに最適なものを見つけることをお勧めします。 –