ハイブ重複レコードを削除する

ハイブで重複レコードを削除するにはどうすればよいですか？以下は私のケースですハイブ重複レコードを削除する

まず、製品テーブルからproducts_rcfileformatにデータを読み込みます。商品テーブルには25行のレコードがあります

FROM products INSERT OVERWRITE TABLE products_rcfileformat   
SELECT *;

第2に、商品表からproducts_rcfileformatにデータを読み込みます。商品表には25行のレコードがあります。しかし、今回は私がデータを照会するとき、それは私にHDFSから

チェック正しい合計行= 50を与えるOVERWRITE句

FROM products INSERT INTO TABLE products_rcfileformat   
SELECT *;

を使用していないよ、HDFSは別のものを作るように見えます000000_0

に追加ファイルxxx_copy_1のコピーの代わりに、今、私はそのレアそれらのレコードを削除したいですxxx_copy_1のd。ハイブコマンドでこれをどのように達成できますか？私が間違っていなければ、hdfs dfs -rmコマンドを使ってxxx_copy_1ファイルを削除することができます。しかし、私はそれが削除ステートメントのようなハイブコマンドの例を使用して行うことができるかどうかを知りたいですか？

出典

2016-05-07 user664481