2017-11-28 2 views
1

私は紺碧のファイル共有に2TBのデータを持っています。私はそれを紺碧のデータの湖の店にコピーします。それは同じディレクトリ構造でコピーされるべきです。私は試しましたAzureファイル共有から複数のスレッドを使用してAzure Data Lakeストアにデータをコピーする方法はありますか?

しかし、データを紺碧のファイル共有から紺碧のデータ湖にコピーすることは永遠に取っています。この仕事やこれを実現するための他の実現可能な方法を得る方法について、なんらかの光を当てはめることはできますか?

dir構造は、Main_dir/sub_dir/sub_dir/{multiple_data_folders}に似ており、同じ方法でコピーする必要があります。要点は、Main_dir/sub_dir/sub_dir /の下のすべてのデータフォルダをコピーするのではなく、各sub_dirに2つしかコピーしないことです。だから、私はこの2つを別の場所に持っていくことを試みました。

find DATA_PREP_INPUT2 -maxdepth 1 -mindepth 1 -type d | while IFS= read -r subdir; do 
    mkdir -p DATA_PREP_INPUT_TEST/"$(basename $subdir)" && 
    cp -n -r "$subdir"/{IPD_130288,IPD_130284} DATA_PREP_INPUT_TEST/"$(basename $subdir)"/; 
done 

次に、上記のazureコマンドを使用してコピーできます。しかしこれは、1つのデータディレクトリをコピーするのに時間がかかりすぎる。

+1

文書化された性能目標は、私の計算で2 TBを転送するのに約10時間である、一株当たり60メガバイト/秒です。パフォーマンスが大幅に遅くなっていますか?もしそうなら、共有から読んでいるところに改善の余地があるかもしれません。しかし、あなたが2 TBで約10時間に等しいレートを見ているなら、あなたはおそらくFile Shareのスループット限界にいるでしょう。 –

+0

こんにちは、あなたのコードはどこで実行されていますか、Azureのどこか(おそらく仮想マシンや紺碧のシェルなど)ですか?またはあなたのローカルネットワーク上で? (ジョンのコメントに+1すると、上記の答えによって鉱山の関連性が増します)。 –

答えて

0

灰色のファイル共有の制限値に達していない場合は、Azureデータファクトリを使用することをお勧めします。

データソース間のコピーでは、同時に実行でき、実行場所は自動的にデータシンクに最も近くなります(ほとんどの場合、必要に応じて上書きできます)。

これは、Azureのファイル共有をサポートしています: https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-file-storage

とデータ湖ストア:ここ https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-data-lake-store

は、パフォーマンス・チューニングのためのいくつかのヒントがあります: https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance

私が信じていませんV2では「コピーウィザード」(実験を簡単にする)を書く時間がありますが、Azureファイル共有に必要なバージョンです。ここで

はなって見つめていたガイドです:ファイル共有のための https://docs.microsoft.com/en-us/azure/data-factory/

関連する問題