Hadoopでプロセスを実行した後にデータサイズが変わるのはなぜですか？

例えば、私がワードカウントを実行するとき、入力サイズは出力とは異なります。それは単にカウンタのためか、それとも何か他のものですか？Hadoopでプロセスを実行した後にデータサイズが変わるのはなぜですか？

出力のサイズを予測する方法は、使用しているコードによって異なります。誰でも私にそれを説明したり、私に何か役に立つと示唆することができますか。

2016-10-06 Spyros_av

私はそれが還元剤で行っている変換に依存すると信じています。

単語カウントの例を考えてみましょう.1GBのサイズのファイルがある場合、単語カウントを実行すると、レデューサーの出力はファイル内の別の単語になります。

この場合、出力ファイルのサイズが縮小することは明らかです。

変換を行わずに出力ファイルに書き戻す別の例を考えた場合、減速機の出力サイズはマッパーの入力サイズと一致する必要があります。

私はそれが理にかなっていることを願っています。それはあなたのレデューサーにあるロジックによって異なります。

2016-10-06 22:42:52

答えて