異なる変換で使用するデータをキャッシュする最良の方法

メガデータストアから何百万というIDを読み取る変換があります。異なる変換で使用するデータをキャッシュする最良の方法

私は何とかそれらのIDをリストまたはハッシュマップに格納したいと考えています。

私には約1ダースの変換があります。これらの各変換は、他の個別の子データストアから入力データ（ID）を取得します。

私がしたいことは、UDJCでは、子データストアからIDを取得するときに、各IDがすでにメガIDリストに入っているかどうかを何らかの方法でチェックすることです。

性能上の理由から、すべての変換でメガストアを呼び出すことはできません。

後続のUDJCで使用できるメガIDのリストを作成する方法はありますか？

おかげ

出典

2017-07-12 eych

あなたは 'Unique rows（HasSet）'機能を複製していませんか？ – AlainD

Emdedded database？例：h2 – simar

私は1つの変換とその後の変換でファイルをデシリアライズしてファイルにIDをシリアル化することになりました。

出典

2017-07-17 18:41:29 eych

繰り返しが発生する危険性がありますが、 'UniqueRow？ 'の機能を複製してはいけませんか？ステップ？ IDの数が本当に多い場合は、 'Unique Row'の前にtmpファイルに格納されている値で' sort'を使います（これはあなたと同じ戦略ですが、その上のKettleよりも難しいです）。また、複数のキーを連結して1つのidを作成する必要がある場合は、 'Combination lookup/update'を使用してください。 – AlainD

異なる変換で使用するデータをキャッシュする最良の方法

答えて

関連する問題