3
私は各地域の国の数に基づいてサンプリングしようとしているブタ関係にあるカントリーリージョンのデータを持っています。私は、各地域から10%の国を選別したいと思います。私はFOREACH内でSAMPLEを使用しようとしていますが、SAMPLEはFOREACH内でサポートされていないようです。Apache PIG - パーセント値を使用してforeach内のデータをサンプリングする
COUNTRY_FULL = LOAD 'COUNTRY_REGION' USING org.apache.hive.hcatalog.pig.HCatLoader();
COUNTRIES = FILTER COUNTRY_FULL by partition_dt=='2016-09-04';
COUNTRIES_GROUPED_BY_REGION = GROUP COUNTRIES BY region_id;
SAMPLED_DATA = FOREACH COUNTRIES_GROUPED_BY_REGION {
SAMPLED = SAMPLE COUNTRIES 0.1;
GENERATE FLATTEN(SAMPLED);
};
DUMP SAMPLED_DATA;
ブタのグループ化された関係でこのパーセンテージベースのサンプリングを達成する方法はありますか?