アーキテクチャ/ perf質問がここにあります。構内SQLサーバーデータベースのデータを寄木張り形式のAzureにコピー
私は約10TBの〜200TBのテーブルを持つ、構内SQLサーバーデータベースを持っています。 HDInsight Sparkによるデータサイエンス分析のために、このデータをAzure in Parquet形式で利用可能にする必要があります。
このデータをParquet形式のAzure(Blob storageまたはData Lake)にコピー/変換する最適な方法は何ですか?
タスクの管理性の面から(〜200テーブル以来)、私のベストショットは、sqlcmd経由でファイル共有にローカルにデータを抽出し、csv.bz2として圧縮し、データシェアを(PreserveHierarchyと共に)コピーするために使用します。アズレに最後に、pysparkを実行してデータをロードし、.parquetとして保存します。
与えられたテーブルスキーマを使用して、SQLデータベースからSQLデータ抽出およびPythonスクリプト をT-SQL経由で自動生成できます。
これを達成するために、より迅速かつ/または管理しやすい方法がありますか?
は、私は〜200の活動/データセット合理的ではありません抽出テーブルごとに1つずつ管理する必要があります。また、ADFの吸盤での寄木張りの形式は、私の発見に基づいていれば、あまりうまく圧縮されません。 – YuGagarin