複数のテーブルに対して1つのsqoopジョブを同時に使用することができ、同時に実行することができます

私はSqoop Hands-onを使い始めました。私は質問がある、私はデータベースに300のテーブルがあり、それらのテーブルに増分ロードを実行したいと言うことができます。私は、追加モードまたは最後に変更されたインクリメンタルなインポートを行うことができます。複数のテーブルに対して1つのsqoopジョブを同時に使用することができ、同時に実行することができます

しかし、ジョブ内の唯一のものがテーブル名、CDC列、最後の値/更新値であれば、300個のジョブを作成する必要がありますか？

誰かが同じ仕事をして、これをループとしてテキストファイルから読み込み、パラレルですべてのテーブルに対して同じジョブを実行できるパラメータとして渡してみましたか？

業界標準と推奨事項は何ですか？

また、CDCを実行して後でテーブルをマージする代わりに、非常に小さいhadoopテーブルを切り捨てて再ロードする方法はありますか？

インポートテーブルがすべて「データベースからHDFSにインポートする」ただし、各テーブルのCDC列を変更する方法はありません。も参照してください。sqoop import multiple tables

以下の方法でも切り捨てはありません。 --delete-target-dir "インポート先ディレクトリが存在する場合は削除します"

2016-08-18 16:45:40

答えて