2012-12-07 12 views
5

mrjobを使用してファイルのバッチを処理し、統計情報を取得しています。私はmrjobを使用して1つのディレクトリ下のすべてのファイルを繰り返し処理する方法

python count.py <some_input_file> output 

のように、単一のファイルでのMapReduceジョブを実行することができます知っているが、どのように私は、スクリプトへのファイルのディレクトリを養うことができますか?ファイルのディレクトリ構造はこのようなものですfolder/subfolders/files、何か提案はありますか?

答えて

6

最後に、入力パスとしてディレクトリを指定でき、Hadoopはそのディレクトリ内のすべてのファイルを処理することができます。

さらに私の場合、私は入力ファイルを含むサブディレクトリを持っています。 Hadoopはディレクトリを再帰的に横断せず、デフォルトでエラーを発生させます。一般的なやり方は、ワイルドカードグロブを使用することです。

python count.py hdfs://master-host/directory/*/*.txt > result 
関連する問題