2016-10-06 1 views
1

例えば、私がワードカウントを実行するとき、入力サイズは出力とは異なります。それは単にカウンタのためか、それとも何か他のものですか?Hadoopでプロセスを実行した後にデータサイズが変わるのはなぜですか?

出力のサイズを予測する方法は、使用しているコードによって異なります。 誰でも私にそれを説明したり、私に何か役に立つと示唆することができますか。

答えて

1

私はそれが還元剤で行っている変換に依存すると信じています。

単語カウントの例を考えてみましょう.1GBのサイズのファイルがある場合、単語カウントを実行すると、レデューサーの出力はファイル内の別の単語になります。

この場合、出力ファイルのサイズが縮小することは明らかです。

変換を行わずに出力ファイルに書き戻す別の例を考えた場合、減速機の出力サイズはマッパーの入力サイズと一致する必要があります。

私はそれが理にかなっていることを願っています。それはあなたのレデューサーにあるロジックによって異なります。

関連する問題