2016-03-29 1 views
0

をフィルタリングします。次に、structurelocationを含まないものを除外する必要があります。 しかし、正規表現のタイプをフィルタリングできないというエラーが発生しました。何か案が? ちなみに、エンディング目標は(topic|news|politics|elections|primary)PIGの正規表現の抽出物は、その後、私のように文字列を持っている無名の正規表現タプル

更新のような最長の階層を解析することで、スクリプト:

data = load load '/web/visit_log/20160303' 
      USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') as json:map[]; 
a = foreach data generate json#section as sec_type; 
b = foreach act_flt GENERATE ..host, REGEX_EXTRACT_ALL(act_type, 'topic..(?!location)(.*?)"') as extr; 
store b into /user/tad/sec_hir 
+1

にこれを変更してみてください? –

+0

updated script – Tadelicious

+0

実際には、構造と場所を含まない最長の文字列を抽出したいと思います。 – Tadelicious

答えて

0

構文フィルターの一致のためには)incorrect.Theデータを(持っていないようですようですその中に。

c = filter b by not extr matches '(structure|location)'; 

あなたのスクリプトを投稿することができます

c = filter b by not (extr matches 'structure|location'); 
+0

私は正規表現の部分が正しいとは思っていません。スクリプトを更新しました。 – Tadelicious

関連する問題