mrjobを使用して1つのディレクトリ下のすべてのファイルを繰り返し処理する方法

python count.py <some_input_file> output

のように、単一のファイルでのMapReduceジョブを実行することができます知っているが、どのように私は、スクリプトへのファイルのディレクトリを養うことができますか？ファイルのディレクトリ構造はこのようなものですfolder/subfolders/files、何か提案はありますか？

最後に、入力パスとしてディレクトリを指定でき、Hadoopはそのディレクトリ内のすべてのファイルを処理することができます。

さらに私の場合、私は入力ファイルを含むサブディレクトリを持っています。 Hadoopはディレクトリを再帰的に横断せず、デフォルトでエラーを発生させます。一般的なやり方は、ワイルドカードグロブを使用することです。

python count.py hdfs://master-host/directory/*/*.txt > result

2012-12-07 12:48:20

答えて