いずれかのハイブテーブルでDESCRIBE EXTENDEDコマンドを実行すると、出力の末尾付近にtotalSize値とrawDataSize値が表示されます。次のフィールドは何ですか: 'totalSize'と 'rawDataSize'は、ハイブのDESCRIBE EXTENDEDクエリ出力の意味ですか?
これらのフィールドは何を意味していますか?
例:
hive > DESCRIBE EXTENDED <TableName>
Output Results:
Table(tableName:TablenameXXXXX, dbName:XXxXXX,
.......... .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
totalSizeは、使用されたデータ部分のみで使用されたスペースを反映しているか、使用されたデータ部分とHDFSブロックの未使用部分を含んでいますか? –
totalSizeはHDFSブロックサイズの倍数ですか? –
ブロックサイズの倍数である必要はありません。 HDFSはファイルの最後のブロックにストレージを浪費しません。ファイルサイズが200 MBでブロックサイズが128 MBの場合、最初のブロックのサイズは128 MB、2番目のブロックのサイズは72 MBです –