2017-06-14 4 views
1

圧縮されたTXTファイルをHiveにロードしようとしています。操作はエラーなしで終了しますが、構築された表には最初は予期しない文字があります。なぜこれが起こったのですか?ハイブ内の圧縮データ記憶約 詳しい情報:https://cwiki.apache.org/confluence/display/Hive/CompressedStorage予期しない要素がインポートされたHiveへの圧縮データ

# cat test.txt 
     tab1 tab2 tab3 
     tab4 tab5 tab6 
     tab7 tab8 tab9 

# tar -cvzf test.gz test.txt 
test.txt 

# cat hiveQuery.hql 
CREATE TABLE raw (col1 STRING,col2 STRING,col3 STRING) 
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
; 
LOAD DATA LOCAL INPATH '/test.gz' INTO TABLE raw; 

# hive -f hiveQuery.hql 
WARNING: Use "yarn jar" to launch YARN applications. 

Logging initialized using configuration in file:/etc/hive/2.4.0.0-169/0/hive-log4j.properties 
OK 
Time taken: 6.936 seconds 
Loading data to table default.raw 
Table default.raw stats: [numFiles=1, totalSize=145] 
OK 

# hive -e "select * from raw" 
WARNING: Use "yarn jar" to launch YARN applications. 

Logging initialized using configuration in file:/etc/hive/2.4.0.0-169/0/hive-log4j.properties 
OK 
test.txt                 0000644 0000000 0000000 00000000055 13120243734 011273 0     ustar root       root        tab1 tab2 tab3 
tab4 tab5 tab6 
tab7 tab8 tab9 
                      NULL NULL 

答えて

1

tarフォーマットは、追加のヘッダー情報を含みます。
gzipを使用してファイルを圧縮し、正常に動作することを確認します。

関連する問題