2016-07-20 3 views
0

私はhadoop Map-Reduceフレームワーク用にpythonでマッパープログラムを作成しました。サブディレクトリ内のファイルにアクセスするためのHadoop Streaming Runコマンドとは何か

そして私は、コマンドによってそれを実行しています:

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile -output outputfile3

入力ファイルのディレクトリだけのファイルが含まれている場合、それが正常に動作しています。

サブディレクトリがディレクトリの入力ファイルにある場合、それは動作しておらず、エラーを表示しています。私のように2つのサブディレクトリ(KAKAとKAKU)が入力ファイルにあります。

とエラーが表示されている:

16/07/20夜5時01分40秒ERRORのstreaming.StreamJob:エラー起動仕事:未 ファイル:HDFS://二/ユーザー/チーム/ inputfile/kaka

私の質問は、サブディレクトリにファイルを届けるコマンドとは何でしょうか。

答えて

0

使用正規表現:

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile/* -output outputfile3

inputfile/* - - サブディレクトリの1つのレベル

inputfile/*/*のために動作しますサブディレクトリの2レベル

として実行のために動作します

+0

ありがとうございます。それは今働いている.. –

関連する問題