6
S3
(すぐにParquet
形式になる)に格納されている膨大な量のサーバーデータがあります。データには何らかの変換が必要なため、S3からのストレートコピーではありません。私はSpark
を使ってデータにアクセスしますが、Sparkで操作するのではなく、S3に書き戻してから、Redshiftにコピーすると、ステップをスキップして、プル/変換するクエリを実行できるかどうか疑問に思っていますそのデータをレッドシフトに直接コピーしますか?Spark SQL/Hive/Prestoを使用してParquet/S3からRedshiftにまっすぐにコピーできますか?
これは寄木細工と比較してどのように効率的に任意の考え - > csv - > S3 - > S3から赤方偏移にステートメントをコピーする –
@ marcin_koss、私はそれを測定していませんが、一般的に言えば、変形が少ないほど良いです。 S3では、データの書き込み/読み取りのコストを念頭に置く必要があります。 – evgenii