をフィルタリングします。次に、structure
とlocation
を含まないものを除外する必要があります。 しかし、正規表現のタイプをフィルタリングできないというエラーが発生しました。何か案が? ちなみに、エンディング目標は(topic|news|politics|elections|primary)
PIGの正規表現の抽出物は、その後、私のように文字列を持っている無名の正規表現タプル
更新のような最長の階層を解析することで、スクリプト:
data = load load '/web/visit_log/20160303'
USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') as json:map[];
a = foreach data generate json#section as sec_type;
b = foreach act_flt GENERATE ..host, REGEX_EXTRACT_ALL(act_type, 'topic..(?!location)(.*?)"') as extr;
store b into /user/tad/sec_hir
にこれを変更してみてください? –
updated script – Tadelicious
実際には、構造と場所を含まない最長の文字列を抽出したいと思います。 – Tadelicious