2017-12-05 6 views
0

プロセスは、あるhdfs場所からSAMEクラスター内の別の場所にファイルをコピーしています。これは正常に動作していますが、hadoop -cpは時間がかかります。同じクラスタに対してdistcpで置き換えることはできますか?またはパフォーマンスを向上させるためのよりよい解決策がありますか?同様に、クラスタ内とclousters間のデータのコピーで動作distcpドキュメントによればHadoopはDistcpを使用してcpを置き換えます

答えて

1

https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

DistCpバージョン2(分散コピー)は、インター大 /用に使用されるツールでありますクラスタ内コピー。 (...) DistCpの最も一般的な呼び出しは、クラスタ間のコピーです:

bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

これは、一時的な ファイルにNN1に/ fooの/バーの下の名前空間を展開する間、その内容を分割します一連のマップタスクを実行し、各ノードマネージャでコピーをnn1からnn2に開始します。

関連する問題