0
私は巨大なデータセットをhdfsに置き、いくつかの用語をgrepしたいと思います。同じのためのhaddopストリーミングコマンドとは何ですか? (Iドンをご参照ください。tはPIGを使用したい)hadoopストリーミングを使用してhdfsのデータセットでgrepする方法
私は巨大なデータセットをhdfsに置き、いくつかの用語をgrepしたいと思います。同じのためのhaddopストリーミングコマンドとは何ですか? (Iドンをご参照ください。tはPIGを使用したい)hadoopストリーミングを使用してhdfsのデータセットでgrepする方法
あなたは、このコマンドを使用することができます: -
Hadoopのジャー{} path_to_jar /hadoop-streaming.jar -Dmapreduce.job.queuename =デフォルト-Dstream。/grep " - grep" -dmapred.reduce.tasks = 1 -input/tmp/{input_path} -output/tmp/{output_path} -mapper 'grep searchTerm '
ありがとうございました!不思議なことに、Dstream.non.zero.exit.is.failure = falseはここで何をしたのですか? – ravi
この検索キーワードが見つからない場合は、このマッパーは失敗します – sorabh