私はhadoop Map-Reduceフレームワーク用にpythonでマッパープログラムを作成しました。サブディレクトリ内のファイルにアクセスするためのHadoop Streaming Runコマンドとは何か
そして私は、コマンドによってそれを実行しています:
hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile -output outputfile3
入力ファイルのディレクトリだけのファイルが含まれている場合、それが正常に動作しています。
サブディレクトリがディレクトリの入力ファイルにある場合、それは動作しておらず、エラーを表示しています。私のように2つのサブディレクトリ(KAKAとKAKU)が入力ファイルにあります。
とエラーが表示されている:
16/07/20夜5時01分40秒ERRORのstreaming.StreamJob:エラー起動仕事:未 ファイル:HDFS://二/ユーザー/チーム/ inputfile/kaka
私の質問は、サブディレクトリにファイルを届けるコマンドとは何でしょうか。
ありがとうございます。それは今働いている.. –