2017-12-15 13 views
1

s3-dist-cpツールを使用して寄木細工のファイル(スナッピー圧縮)をマージすることが可能かどうか疑問に思うだけです。私は "--groupBy"と " - targetSize"オプションを試して、小さなファイルを大きなファイルにマージしました。しかし、私はSparkやAWS Athenaでそれらを読むことはできません。すべてのヘルプは高く評価されs3-dist-cpを使用して寄せ木細工のファイルをマージする

HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3://tbw-analytics/parquet/auctions/region=us/year=2017/month=1/day=1/output123 offset 4 but got 247604 values instead over 1 pages ending at file offset 39 

This query ran against the "beeswaxauctionlogdatabase" database, unless qualified by the query. Please post the error message on our forum or contact customer support with Query Id: 4ff77c55-3b69-414d-8fd9-a3d135f5ff2f. 

:AWSのアテナで は、私は次のエラーを得ました。

答えて

2

寄せ木細工のファイルは、重要な構造を持っています。 This pageが詳細に説明していますが、最終的にメタデータがzipファイルのように最後に格納され、Parquetファイルを連結することで破損する可能性があります。 Parquetファイルをマージするには、Parquetのファイル形式を理解するSparkのようなものを使用する必要があります。

+0

ええ、それは私が考えたものです。情報をありがとう! – seiya

関連する問題