ハイブで重複レコードを削除するにはどうすればよいですか?以下は私のケースですハイブ重複レコードを削除する
まず、製品テーブルからproducts_rcfileformatにデータを読み込みます。商品テーブルには25行のレコードがあります
FROM products INSERT OVERWRITE TABLE products_rcfileformat
SELECT *;
第2に、商品表からproducts_rcfileformatにデータを読み込みます。商品表には25行のレコードがあります。しかし、今回は私がデータを照会するとき、それは私にHDFSから
チェック正しい合計行= 50を与えるOVERWRITE句
FROM products INSERT INTO TABLE products_rcfileformat
SELECT *;
を使用していないよ、HDFSは別のものを作るように見えます000000_0
に追加ファイルxxx_copy_1のコピーの代わりに、今、私はそのレアそれらのレコードを削除したいですxxx_copy_1のd。ハイブコマンドでこれをどのように達成できますか?私が間違っていなければ、hdfs dfs -rmコマンドを使ってxxx_copy_1ファイルを削除することができます。しかし、私はそれが削除ステートメントのようなハイブコマンドの例を使用して行うことができるかどうかを知りたいですか?
お返事ありがとうございます。あなたが提供するリンクは大丈夫と思われ、後で試してみます。あなたの投稿に記載されている他の方法は何か分かりますか? – user664481