Amazon EMRを使用していますが、その方法(平行)で出力が複数のファイルに分割されるためです。還元剤の結果を1つのファイルに印刷する方法
しかし、私は代わりに正しいシーケンスで1つのファイルを持っていますが、それは可能でしょうか?減速中
私の最後の行は、彼らが混在しているとして、私は今回の結果をカント、これは私が狂いそうされ、この
for key, value in doc_dict.iteritems():
print key
for k, v in value.iteritems():
print k,v
のようなものです。
ジョブを実行するシェルコマンドは何ですか? 'hadoop-streaming'を使っていますか? – maxymoo
@maxymoo私はruby aws sdkを使用しています。そして、そのhadoop-streamingを受け取ります。 –
'mapreduce.job.reduces'を使用して、おそらくリデューサーの数を1に制限することができます。参照:[マップタスクの数を設定してタスクを減らす](https://stackoverflow.com/questions/6885441/setting-the-number-of-map-tasks-and-reduce-tasks) –