私は小さなファイル(2MB)を持っています。私はこのファイルの上に外部のハイブテーブルを作成しました(テキストファイルとして保存されています)。別のテーブル(ORCとして保存されている)を作成し、前のテーブルのデータをコピーしました。 ORCテーブルのデータサイズを確認したところ、2MB以上でした。
ORCは圧縮されたファイル形式なので、データサイズはそれ以下であるべきですか?異なるファイル形式のハイブのファイルサイズ
0
A
答えて
1
ソースファイルが小さすぎるからです。 ORCは、内部インデックス、ヘッダー、フッター、ポストスクリプト、圧縮コーデックもいくつかの構造体などを追加する複雑な構造を持っています。 これらのすべてのサポート構造体は、データよりも多くの領域を消費します。このような小さなファイルの場合、ファイルがメモリに収まるので、列の最小値/最大値を格納する必要はありません。また、ブラムフィルタなどは必要ありません。この場合に最適なストレージは、圧縮されていないテキストファイルです。また、ソースファイルをgzipしてサイズを確認することもできます。小さすぎるgzipファイルは、圧縮されていないファイルよりも大きくなることがあります。ファイルが大きければ大きいほど、orcの圧縮と使用のメリットが大きくなります。
1
Hive 0.14では、ユーザーはテーブルまたはパーティションでCONCATENATEコマンドを発行することにより、小さなORCファイルの効率的なマージを要求できます。ファイルは再シリアライズせずにストライプレベルでマージされます。
ALTER TABLE istari [PARTITION partition_spec] CONCATENATE;
関連する問題
- 1. 異なるExcelファイル形式の特定
- 2. 異なる画像ファイル形式のサンプル
- 3. Strategyパターンは、異なるファイル形式
- 4. 異なる形式のレンダリングアクション
- 5. 形式の異なるラジオスタイル
- 6. ハイブ日付の形式の一致
- 7. ハイブのシーケンスファイル形式とパーケットファイル形式は何ですか?
- 8. スパーク/ハイブ - 「ピボットテーブル」形式にグループのデータ
- 9. sasからハイブへのProc形式
- 10. カスタムファイル形式を使用してハイブ内のxmlファイルを読む
- 11. レールのバリデーションメソッドの異なる形式
- 12. numpyの異なる形式の出力
- 13. LINQの二つの異なる形式
- 14. 形式の異なるファイルを読み込む方法は?
- 15. SL3形式の異なるデータコンテキスト
- 16. ソースXMLの異なる日付形式
- 17. wav形式の異なるサンプル
- 18. 異なるファイル形式を保存する
- 19. xlsx形式の異なる言語のExcel式の名前
- 20. JPEG2000のファイル形式は異なりますか?
- 21. クエリーストリングの形式が異なります
- 22. バッチスクリプトで整数形式のファイルサイズを出力する方法
- 23. アップロード前にHTML形式のファイルサイズを確認するjqueryスクリプト
- 24. 無音でファイルサイズに影響しないオーディオ形式
- 25. メモリとディスクの異なるファイルサイズ
- 26. チャンクファイルアップロードのファイルサイズ/破損が異なる
- 27. ハイブで日付形式を変更できない
- 28. ImageMagick:最大ファイルサイズのPNG形式の画像
- 29. ハイブの "MMM-yyyy"形式のタイムスタンプが必要
- 30. マイクロソフトのファイル形式
誰でもこの質問に回答できますか –