Hadoop DFSからローカルファイルシステムにデータを転送する最も速い方法は何ですか？

私はいつも "dfs -get"や "dfs -cat"を使っていますが、もっと良いものがあるかもしれないと思います。 "dfs -cat | pv"を指定すると、ネットワーク接続が飽和していないように見えます（20MB /秒しか得られません）。それを並列化する方法はありますか？Hadoop DFSからローカルファイルシステムにデータを転送する最も速い方法は何ですか？

出典

2011-01-23 Brendan OConnor

は、その単一のプロセスですべてのデータをシャトルする必要があります。並列性は悪いです。

私がやったことは、各ディスク上のスクラッチスペースにダンプしたマッパーだけのストリーミングジョブを実行してから、1台のマシンにrsyncすることです。どちらの部分もクラスターを十分に稼働させるのに良い仕事をします。 rsyncは冪等であるため、hdfs-> local部分と同時に起動することができます。

出典

2011-01-25 23:03:25 mrflip

ブリリアント。ありがとうフリップ！ –

Hadoop DFSからローカルファイルシステムにデータを転送する最も速い方法は何ですか？

答えて

関連する問題