2
HBaseにデータを格納する際に1つの問題があります。時間の経過後にHBaseテーブルサイズが減少する
- 大きなcsvファイル(サイズ:20G)は、結果としてhfiles(結果データサイズ:180G)でSparkアプリケーションによって処理されています。
- コマンドを使用して、テーブルの作成:
'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'}
- データ作成hfilesからコマンド
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dhbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily=1024 hdfs://ip:8020/path TABLE_NAME
とバルクロードされた右テーブルのローディング後のサイズは、しかしながら、ある期間の後に、180 Gである(昨日でした午後8時、午前8時頃)、データを14Gに圧縮するプロセスが開始されました。
私の質問はこのプロセスの名前ですか?それは大きな圧縮ですか?
hbase(main):001:0> major_compact 'TEST_TYMEK_CRM_ACTION_HISTORY'
0 row(s) in 1.5120 seconds