Hadoop Streamingジョブの出力ファイル名を制御する方法はありますか? 具体的には、私の仕事の出力ファイルの内容と名前をレデューサーが出力するケーキで整理したいと思います。各ファイルには1つのキーの値しか含まれず、その名前がキーになります。Hadoopストリーミングジョブの出力ファイル名とコンテンツを制御するにはどうすればよいですか?
更新: ちょっと答えが見つかりました - ジョブ出力形式としてMultipleOutputFormatから派生したJavaクラスを使用すると、出力ファイル名を制御できます。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
は、私はそこに、このための任意のサンプルを見ていない... 誰もが独自の出力フォーマットのJavaクラスを使用するHadoopのストリーミングサンプルを指摘することはできますか?
新しいドキュメントへのリンクが壊れています –