ソースシステムデータウェアハウスからHDFSに変換しようとする非常に大きなテーブルがありますが、そのためには帯域幅が限られています。私は必要な列だけを引き出し、テーブルを起動するための実行時間を最小限に抑えたいと思います。ジョインを含むテーブルで増分Sqoopを実行しますか?
sqoopは現在、このような何かを引っ張る:
SELECT
ColumnA,
ColumnB,
....
ColumnN
FROM
TABLE_A
LEFT JOIN
TABLE_B
ON
...
LEFT JOIN
TABLE_N
....
は、データがスター・スキーマ形式で保存され、かつ寸法が独立して、事実の更新ができることを考えると、インクリメンタルsqoopを行うことが可能です?
または、テーブル全体を必要なだけ増分し、HDFS側で結合を実行する唯一のソリューションですか?
私の場合、おそらくlastmodifiedモードを使用する必要がありますか? KEYを使用することは間違いありません。私はそこにソーステーブルをチェックアウトします。しかし、最後の変更のために複数のフィールドを使用する方法はありますか? – boethius
さて、クール。私はこれが私を得るために十分だと思う - 私は多くのユーザーが - 増分sqoopで問題を抱えているのを見るが、少なくとも始めることができる。将来の問題がある場合は、別の質問をします。 – boethius