2
私はいつも "dfs -get"や "dfs -cat"を使っていますが、もっと良いものがあるかもしれないと思います。 "dfs -cat | pv"を指定すると、ネットワーク接続が飽和していないように見えます(20MB /秒しか得られません)。それを並列化する方法はありますか?Hadoop DFSからローカルファイルシステムにデータを転送する最も速い方法は何ですか?
私はいつも "dfs -get"や "dfs -cat"を使っていますが、もっと良いものがあるかもしれないと思います。 "dfs -cat | pv"を指定すると、ネットワーク接続が飽和していないように見えます(20MB /秒しか得られません)。それを並列化する方法はありますか?Hadoop DFSからローカルファイルシステムにデータを転送する最も速い方法は何ですか?
は、その単一のプロセスですべてのデータをシャトルする必要があります。並列性は悪いです。
私がやったことは、各ディスク上のスクラッチスペースにダンプしたマッパーだけのストリーミングジョブを実行してから、1台のマシンにrsyncすることです。どちらの部分もクラスターを十分に稼働させるのに良い仕事をします。 rsyncは冪等であるため、hdfs-> local部分と同時に起動することができます。
ブリリアント。ありがとうフリップ! –