2017-08-29 13 views
0

私はApache pigを使い始めています。私はcsvファイルを変換しようとしています。Apache-Pig、サブグループの変換

入力は次のようになります場合:

1,A,10,SS,11 
,B,11,BB,12 
,D,12,TT,13 
2,A,20,GG,11 
,C,22,YY,9 
,E,30, , 

は、以下の出力を取得することが可能ですか?

Number, Type1, Value, Type2, Value, 
    1,  A, 10, SS, 11, 
    1,  B, 11, BB, 12, 
    1,  D, 12, TT, 13, 
    2,  A, 20, GG, 11, 
    2,  C, 22, YY,  9, 
    2,  E, 30,  ,  , 

CSVには、最初の列の番号で識別されるセクションが含まれています。 2番目の列の値は、各セクションで可変です。各セクション間の行数も可変です。

Apache-Pigはこの種の問題を解決する良いツールですか、誰かがこのような情報をどのように処理するのでしょうか?

+0

第3列は常に増加していますか?注文列として使用できますか? – MaFF

+0

いいえ、最初の列の最初の行が最初のグループ化フィールドであることを除いて、値には実際のパターンはありません。入力はcsvに変換された別個のレポートです。 –

答えて

0

最初にこのCSVファイルをbashシェルスクリプトを使用してヌルがあるようにし、sedまたはawkを使用してヌル値を上回り、変更したファイルをHDFSに入れます。そこから変換を開始できます豚を使って

関連する問題