私は紺碧のファイル共有に2TBのデータを持っています。私はそれを紺碧のデータの湖の店にコピーします。それは同じディレクトリ構造でコピーされるべきです。私は試しましたAzureファイル共有から複数のスレッドを使用してAzure Data Lakeストアにデータをコピーする方法はありますか?
しかし、データを紺碧のファイル共有から紺碧のデータ湖にコピーすることは永遠に取っています。この仕事やこれを実現するための他の実現可能な方法を得る方法について、なんらかの光を当てはめることはできますか?
dir構造は、Main_dir/sub_dir/sub_dir/{multiple_data_folders}に似ており、同じ方法でコピーする必要があります。要点は、Main_dir/sub_dir/sub_dir /の下のすべてのデータフォルダをコピーするのではなく、各sub_dirに2つしかコピーしないことです。だから、私はこの2つを別の場所に持っていくことを試みました。
find DATA_PREP_INPUT2 -maxdepth 1 -mindepth 1 -type d | while IFS= read -r subdir; do
mkdir -p DATA_PREP_INPUT_TEST/"$(basename $subdir)" &&
cp -n -r "$subdir"/{IPD_130288,IPD_130284} DATA_PREP_INPUT_TEST/"$(basename $subdir)"/;
done
次に、上記のazureコマンドを使用してコピーできます。しかしこれは、1つのデータディレクトリをコピーするのに時間がかかりすぎる。
文書化された性能目標は、私の計算で2 TBを転送するのに約10時間である、一株当たり60メガバイト/秒です。パフォーマンスが大幅に遅くなっていますか?もしそうなら、共有から読んでいるところに改善の余地があるかもしれません。しかし、あなたが2 TBで約10時間に等しいレートを見ているなら、あなたはおそらくFile Shareのスループット限界にいるでしょう。 –
こんにちは、あなたのコードはどこで実行されていますか、Azureのどこか(おそらく仮想マシンや紺碧のシェルなど)ですか?またはあなたのローカルネットワーク上で? (ジョンのコメントに+1すると、上記の答えによって鉱山の関連性が増します)。 –