hadoopを実行しているときに、入力フォルダにn行のファイルを1行ずつ、入力フォルダにn行のファイルが1つずつあることに違いがありますか?Hadoop入力ファイル
n個のファイルがある場合、「InputFormat」はすべてを1つの連続ファイルと見なしますか?
hadoopを実行しているときに、入力フォルダにn行のファイルを1行ずつ、入力フォルダにn行のファイルが1つずつあることに違いがありますか?Hadoop入力ファイル
n個のファイルがある場合、「InputFormat」はすべてを1つの連続ファイルと見なしますか?
大きな違いがあります。頻繁に「小さなファイルの問題」と呼ばれ、Hadoopが巨大な入力を小さなタスクに分割することを期待していますが、小さな入力をより大きなタスクに集めることは期待していません。
がClouderaのからこのブログの記事を見てみましょう:あなたはたくさんのファイルを作成しないようすることができた場合は、そう http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
。可能であれば連結します。分割可能なファイルは、Hadoopのほうがはるかに優れています。
私はかつてnetflixデータセットでPigを実行しました。わずか数台のギグを処理するには数時間かかりました。私は入力ファイルを連結しました(映画ごとのファイル、またはユーザーあたりのファイルだと思います)、結果は数分で1つになりました。