2016-08-17 17 views
1

私はSqoop Hands-onを使い始めました。私は質問がある、私はデータベースに300のテーブルがあり、それらのテーブルに増分ロードを実行したいと言うことができます。私は、追加モードまたは最後に変更されたインクリメンタルなインポートを行うことができます。複数のテーブルに対して1つのsqoopジョブを同時に使用することができ、同時に実行することができます

しかし、ジョブ内の唯一のものがテーブル名、CDC列、最後の値/更新値であれば、300個のジョブを作成する必要がありますか?

誰かが同じ仕事をして、これをループとしてテキストファイルから読み込み、パラレルですべてのテーブルに対して同じジョブを実行できるパラメータとして渡してみましたか?

業界標準と推奨事項は何ですか?

また、CDCを実行して後でテーブルをマージする代わりに、非常に小さいhadoopテーブルを切り捨てて再ロードする方法はありますか?

答えて

0

インポートテーブルがすべて「データベースからHDFSにインポートする」 ただし、各テーブルのCDC列を変更する方法はありません。 も参照してください。sqoop import multiple tables

以下の方法でも切り捨てはありません。 --delete-target-dir "インポート先ディレクトリが存在する場合は削除します"

関連する問題