apache-pig

    1

    2答えて

    内の1つのタプルからタプルのセットを生成し、私はルールに従って1組から豚にタプルのセットを生成する方法を任意の解決策を見つけることができませんでした: 入力: ((1,2,3),(a,b,c),(aaa,bbb,ccc)) 出力: (1,a,aaa) (2,b,bbb) (3,c,ccc) と仮定TOBAGとFLATTENを適用する必要がありますが、あまりにも扱いにくいようです。

    -2

    1答えて

    私はテーブルid_track履歴を持っています。これは異なるタイムスタンプでIDを更新しています。私はsqlの反復検索によって最新のIDに統合したいです。どのようにSQLでそれを行うことができますか? 表: OLD_ID NEW_ID TIME-STAMP 101 103 1/5/2001 102 108 2/5/2001 103 105 3/5/2001 105 106 4/5/2001 110

    2

    1答えて

    私はApache Pigを練習しています。 DEFINEとSTREAM演算子を使用して、私はPythonスクリプトを使用してファイルをストリーミングし、いくつかの編集出力として取得します。 Below is the file I am using. [[email protected] ~]$ cat data/movies_data.csv 1,The Nightmare Before C

    0

    1答えて

    私の豚のスクリプトでは、私はいくつかの処理のために各レコードにファイル名が必要なので、私は-tagFileオプションを使用しました。 ColumnMapKeyPrune今 -t http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-colum

    0

    1答えて

    豚スクリプトでこのような構文を使用する方法はありますか? コマンド: /* some pig latin code here */ mv /user/test/folder_pattern* /path/to/move /* some pig latin code here */ エラー:私はwithouフォルダへのフルパスをポイントすると '*' それが動作 [main] ERROR

    0

    3答えて

    に: 1,234,"john, lee", [email protected] 私は、内部削除するだけで、その内部に引用符(」)「場合はカンマ(、)を交換するスペースは豚のスクリプトを使用して」。私のデータは次のようになりますように: 1,234,john lee, [email protected] 私はこのデータをロードするCSVExcelStorageを使用してみましたが、私はCSV

    -1

    1答えて

    データを再度ロードすることなく、script2.pigからsript1.pigの関係 'data1'ビルドにアクセスする方法があるのですか? script1.pigがあります data1 = LOAD '$some_location'USING PigStorage('\t') AS (...); RUNのscript2.pig。 EXEC; script2.pigがあります filter1

    2

    1答えて

    どのような用量のpig-fileの引数についてドキュメントがありますか? 豚のクラスパスにいくつかのjarファイルを追加することです-cp豚また、それがorg.apache.pig.Main で扱わいないようです。それは標準的な豚議論でもない。 豚はこれらの引数をどのように処理するのですか? ありがとうございます。

    0

    1答えて

    私は豚に単純なコードを持っている、毎年映画の数を抽出したい、私は映画のファイルの内容をロードし、私はこのコードを入力: groupingyear = group movies by year; vrar = foreach groupingyear generate movies.year, COUNT(movies.year); 結果は正常です!しかし、私は(年、映画の数)の構造ではなく、