フィルタキーワード(約1000個)のリストがあり、このリストを使用してブタのリレーションのフィールドをフィルタリングする必要があります。ブタのフィルタマッチングが多すぎます
最初に、私は %declare p1 'のようなキーワードを宣言しました。 キーワード1。 '; .... ...
%p1000 'を宣言してください。 キーワード1000。 ';私は、その後のようなフィルタリングを行っています
:
ろ過= FITLER SRC BY(ない$ 0マッチ '$のP1')と(ない$ 0マッチ '$のP2')と......(ない$ 0試合'$ p1000');
DUMPフィルタリング。
ソース関係がSRC内にあり、最初のフィールド、つまり$ 0にフィルタリングを適用する必要があるとします。
フィルタの数を100〜200に減らす場合は問題ありません。しかし、フィルタの数が1000に増えるにつれて、それは機能しません。
誰かが正しい結果を得るために回避策を提案できますか?
ありがとうございます。
あなたは私が運転豚スクリプトで私のユーザー定義関数をリンクするものとどのように私に若干の概要を与えることができます。 –
docs http://pig.apache.org/docs/r0.9.2/basic.html#registerのREGISTER関数とDEFINE関数を見てください。 –