2017-05-15 18 views
1

アーキテクチャ/ perf質問がここにあります。構内SQLサーバーデータベースのデータを寄木張り形式のAzureにコピー

私は約10TBの〜200TBのテーブルを持つ、構内SQLサーバーデータベースを持っています。 HDInsight Sparkによるデータサイエンス分析のために、このデータをAzure in Parquet形式で利用可能にする必要があります。

このデータをParquet形式のAzure(Blob storageまたはData Lake)にコピー/変換する最適な方法は何ですか?

タスクの管理性の面から(〜200テーブル以来)、私のベストショットは、sqlcmd経由でファイル共有にローカルにデータを抽出し、csv.bz2として圧縮し、データシェアを(PreserveHierarchyと共に)コピーするために使用します。アズレに最後に、pysparkを実行してデータをロードし、.parquetとして保存します。

与えられたテーブルスキーマを使用して、SQLデータベースからSQLデータ抽出およびPythonスクリプト をT-SQL経由で自動生成できます。

これを達成するために、より迅速かつ/または管理しやすい方法がありますか?

答えて

-1

ADFは、1回限りのスケジュールに基づいたデータ移動と完全に一致します。

ADFのコピーウィザードを試してください。これを使用すると、ワンクリックSQLをBlob/ADLSに直接移動することができます。私はADFでコピーウィザードを使用する場合は

Copy Activity Overview

+0

は、私は〜200の活動/データセット合理的ではありません抽出テーブルごとに1つずつ管理する必要があります。また、ADFの吸盤での寄木張りの形式は、私の発見に基づいていれば、あまりうまく圧縮されません。 – YuGagarin

関連する問題