2017-11-30 14 views
0

私はフォーマットのデータセットを持って、Apacheの豚学生マークス平均計算

student_id|name|subject|marks 

2   John English 50 

3   mark Maths  50 

3   mark English 50 

このデータはHDFSにロードされ、私がどうなるか、豚を使用して、各学生のための全被験者の平均値を計算する必要がありますこれを行うための豚の方法論。学生によって

答えて

1

グループとあなたが関係A.

B = GROUP A BY (student); 
C = FOREACH B GENERATE group,AVG(A.marks); 
DUMP C; 
にデータをロードしたaverage.Assumingを取得