2016-11-23 15 views
0

私たちは、パートナーが私たちのためにS3に入れた非常に大きな圧縮ファイルを持っています。これらのファイルでMapReduceジョブを実行したいと考えていますが、大きすぎてノードの1つにダウンロードして検査することはできません。ファイルをすばやく調べて、それらを取り込むMapReduceジョブを作成する方法を理解するにはどうすればよいですか?Amazon AWS S3で圧縮オブジェクトをプレビューするにはどうすればよいですか?

答えて

0

次のコマンドを使用しました。もちろん、圧縮形式をファイルの圧縮形式に合わせて調整する必要があります。 countの初期値は、圧縮ファイルが圧縮解除アルゴリズムにパイプされ、圧縮解除が開始されるように十分大きくなければなりません。 GZIPの場合は、ファイルの先頭にヘッダーがあります。 countの先頭がGZIPコマンドにヘッダーを取得するのに十分な大きさでない場合、このコマンドは失敗します。また、第2のcountは第1のものと等価である必要はない。実際に読み取るデータ量は、最初はcountを圧縮率で割った値になりますが、これらの数値が十分大きい場合は、ファイルのプレビューが表示されます。

aws s3 cp s3://yer-bucket/path-to/yer/object.gz - | dd ibs=1024 count=1000 | gzip -cd | dd ibs=1024 count=1000 
関連する問題