Order by句を使用してソートされたデータをパラレルで保証するRedshift unloadコマンドはありますか？

私は現在シナリオをテストするのに十分なデータがありませんが、unloadクエリでorder by句を使用すると、parallel onのRedshift unloadコマンドがソートされたデータをs3の複数のパートファイルにアンロードするかどうかを知る必要がありますか？ parallel offを使用すると、ソートされたデータをs3にシリアルにアンロードできることが分かります。Order by句を使用してソートされたデータをパラレルで保証するRedshift unloadコマンドはありますか？

SELECTクエリ：

赤方偏移のドキュメントを約unloadを述べています。クエリの結果はアンロードされます。ほとんどの場合、問合せにORDER BY句を指定することで、データをソート順にアンロードすることは有益です。この方法は、データがリロードされたときにソートするのに必要な時間を節約します。

このトピックに関する関連リンクは参考になります。

出典

2017-04-17 Tushar

多くを検索した後、私は答えを見つけました。 Redshift docsによると

：

デフォルトでは、UNLOADは、クラスタ内のスライスの数に応じて、複数のファイルを並列にデータを書き込みます。 1つのファイルにデータを書き込むには、PARALLEL OFFを指定します。 UNLOADは、ORDER BY句が使用されている場合は、ORDER BY句に従って絶対的にソートされたデータをシリアルに書き込みます。データファイルの最大サイズは6.2 GBです。データサイズが最大値より大きい場合、UNLOADはそれぞれ最大6.2GBの追加ファイルを作成します。

ソートされたデータが必要な場合は、parallel offを使用する必要があります。

出典

2017-04-17 16:41:40 Tushar

Order by句を使用してソートされたデータをパラレルで保証するRedshift unloadコマンドはありますか？

答えて

関連する問題