私のデータ処理の一般的なパターンは、いくつかの列セットをグループ化し、フィルターを適用してから再び平坦化することです。たとえば:Apache Pig:グループ操作後の名前空間接頭辞(::)
my_data_grouped = group my_data by some_column;
my_data_grouped = filter my_data_grouped by <some expression>;
my_data = foreach my_data_grouped flatten(my_data);
ここでの問題は、のようなスキーマを持つmy_data
かの開始(C1、C2は、C3)は、この操作の後に、それは(マイデータ:: C1、MYDATA :: C2、MYDATAのようなスキーマを持っているということです:: c3)。列がユニークであれば、簡単に "mydata ::"接頭辞を取り除く方法はありますか?
は、私はこのような何かを行うことができます知っている:
my_data = foreach my_data generate c1 as c1, c2 as c2, c3 as c3;
しかし、列のたくさんのデータセットのために維持しにくいとハード取得し、変数列のデータ・セットのは不可能です。
を?前もって感謝します。 –