2011-01-23 14 views

答えて

2

は、その単一のプロセスですべてのデータをシャトルする必要があります。並列性は悪いです。

私がやったことは、各ディスク上のスクラッチスペースにダンプしたマッパーだけのストリーミングジョブを実行してから、1台のマシンにrsyncすることです。どちらの部分もクラスターを十分に稼働させるのに良い仕事をします。 rsyncは冪等であるため、hdfs-> local部分と同時に起動することができます。

+0

ブリリアント。ありがとうフリップ! –

関連する問題