2017-07-12 9 views
0

メガデータストアから何百万というIDを読み取る変換があります。異なる変換で使用するデータをキャッシュする最良の方法

私は何とかそれらのIDをリストまたはハッシュマップに格納したいと考えています。

私には約1ダースの変換があります。 これらの各変換は、他の個別の子データストアから入力データ(ID)を取得します。

私がしたいことは、UDJCでは、子データストアからIDを取得するときに、各IDがすでにメガIDリストに入っているかどうかを何らかの方法でチェックすることです。

性能上の理由から、すべての変換でメガストアを呼び出すことはできません。

後続のUDJCで使用できるメガIDのリストを作成する方法はありますか?

おかげ

+0

あなたは 'Unique rows(HasSet)'機能を複製していませんか? – AlainD

+0

Emdedded database?例:h2 – simar

答えて

0

私は1つの変換とその後の変換でファイルをデシリアライズしてファイルにIDをシリアル化することになりました。

+0

繰り返しが発生する危険性がありますが、 'UniqueRow? 'の機能を複製してはいけませんか?ステップ? IDの数が本当に多い場合は、 'Unique Row'の前にtmpファイルに格納されている値で' sort'を使います(これはあなたと同じ戦略ですが、その上のKettleよりも難しいです)。また、複数のキーを連結して1つのidを作成する必要がある場合は、 'Combination lookup/update'を使用してください。 – AlainD

関連する問題