構内SQLサーバーデータベースのデータを寄木張り形式のAzureにコピー

アーキテクチャ/ perf質問がここにあります。構内SQLサーバーデータベースのデータを寄木張り形式のAzureにコピー

私は約10TBの〜200TBのテーブルを持つ、構内SQLサーバーデータベースを持っています。 HDInsight Sparkによるデータサイエンス分析のために、このデータをAzure in Parquet形式で利用可能にする必要があります。

このデータをParquet形式のAzure（Blob storageまたはData Lake）にコピー/変換する最適な方法は何ですか？

タスクの管理性の面から（〜200テーブル以来）、私のベストショットは、sqlcmd経由でファイル共有にローカルにデータを抽出し、csv.bz2として圧縮し、データシェアを（PreserveHierarchyと共に）コピーするために使用します。アズレに最後に、pysparkを実行してデータをロードし、.parquetとして保存します。

与えられたテーブルスキーマを使用して、SQLデータベースからSQLデータ抽出およびPythonスクリプトをT-SQL経由で自動生成できます。

これを達成するために、より迅速かつ/または管理しやすい方法がありますか？

出典

2017-05-15 YuGagarin

-1

ADFは、1回限りのスケジュールに基づいたデータ移動と完全に一致します。

ADFのコピーウィザードを試してください。これを使用すると、ワンクリックSQLをBlob/ADLSに直接移動することができます。私はADFでコピーウィザードを使用する場合は

Copy Activity Overview

出典

2017-05-15 10:04:51

は、私は〜200の活動/データセット合理的ではありません抽出テーブルごとに1つずつ管理する必要があります。また、ADFの吸盤での寄木張りの形式は、私の発見に基づいていれば、あまりうまく圧縮されません。 – YuGagarin

構内SQLサーバーデータベースのデータを寄木張り形式のAzureにコピー

答えて

関連する問題