Oracleデータベースがあり、データをハイブテーブルにインポートする必要があります。毎日のインポートデータサイズは約1 GBです。よりよいアプローチは何でしょうか?私はパーティションとして、毎日のデータをインポートする場合sqloopを使用してRDBMSからhive/hadoopにデータを段階的にインポートする
、どのように更新された値を処理することができますか?例えば
私はパーティションとして、翌日のために、今日のデータをインポートした場合、新しい値で更新されているいくつかのフィールドがあります。 --lastmodified
を使用して
我々は値を取得することができますが、我々は新しいパーティションまたは古い(既存の)パーティションに更新された値を送信する必要がどこ?
私は新しいパーティションに送信する場合、そのデータが複製されます。 既に存在するパーティションに送信したい場合、どのように達成できますか?
ありがとうBelostokyは、あなたは問題がダイナミックパーティションを使用して解決方法にelobarateしてくださいすることができます。 – Raj
日付でパーティション化するのではなく、値のセット(たとえばcountries/device_type/network_type)をバインドした他のフィールドでパーティションを作成する場合は、次の構文を使用できます:INSERT OVERWRITE TABLE your_table PARTITION(part1、part2)... :https://cwiki.apache.org/confluence/display/Hive/Tutorial-Tutorial-Dynamic-PartitionInsert – belostoky