2017-04-17 2 views
0

私は現在シナリオをテストするのに十分なデータがありませんが、unloadクエリでorder by句を使用すると、parallel onのRedshift unloadコマンドがソートされたデータをs3の複数のパートファイルにアンロードするかどうかを知る必要がありますか? parallel offを使用すると、ソートされたデータをs3にシリアルにアンロードできることが分かります。Order by句を使用してソートされたデータをパラレルで保証するRedshift unloadコマンドはありますか?

SELECTクエリ:

赤方偏移のドキュメントを約unloadを述べています。クエリの結果はアンロードされます。ほとんどの場合、問合せにORDER BY句を指定することで、データをソート順にアンロードすることは有益です。この方法は、データがリロードされたときにソートするのに必要な時間を節約します。

このトピックに関する関連リンクは参考になります。

答えて

0

多くを検索した後、私は答えを見つけました。 Redshift docsによると

デフォルトでは、UNLO​​ADは、クラスタ内のスライスの数に応じて、複数のファイルを並列にデータを書き込みます。 1つのファイルにデータを書き込むには、PARALLEL OFFを指定します。 UNLOADは、ORDER BY句が使用されている場合は、ORDER BY句に従って絶対的にソートされたデータをシリアルに書き込みます。データファイルの最大サイズは6.2 GBです。データサイズが最大値より大きい場合、UNLO​​ADはそれぞれ最大6.2GBの追加ファイルを作成します。

ソートされたデータが必要な場合は、parallel offを使用する必要があります。

関連する問題