apache-pig

0熱

2答えて

私はpigscriptを初めて使用しています。私は下の例で作業中に立ち往生しています。誰もがpigscriptを使って以下に指定した出力を得る方法について私に助けてくれますか？入力： 1|ABC|NC 1|DEF|NC 2|CFD|NY 2|CGF|NY 出力： 1|ABC,DEF|NC 2|CFD,CGF|NY スクリプト： A = LOAD 'testfile.txt' US

0熱

1答えて

Apache Pig DistinctとCount

私は次の質問を理解しようとしています。 4人以上の評価を得た女性ユーザーは何人ですか？私の参加者とフィルタは正確だと思いますが、別の人数を把握することはできません。 COUNT.Ref前にグループにあなたが持っている a = load '/user/pig/movie' AS (userid:int, movieid:int, rating:int, timestamp:chararray);

1熱

2答えて

SELECT COL HIVE SQL VALUE WHERE VALUE <5000

私はHIVEについて学んでいます。私は質問に出くわしました。実行可能な答えが見つからないようです。私は、テーブルから整数値< 5000のみを含む数値列をすべて抽出し、スペースで区切られたテキストファイルを作成する必要があります。私はテキストファイルの作成と行の選択に精通していますが、私が慣れていない特定のパラメータを満たす列を選択すると、どんな助けや指導も頂けます！以下では、テーブルの構造をリスト

2熱

1答えて

豚の参照

私はHadoopの豚を習っていますが、私はいつも要素を参照していました。 groupwordcount: {group: chararray,words: {(bag_of_tokenTuples_from_line::token: chararray)}} 入れ子のタプルと袋がある場合は、誰かがどのように要素を参照するか説明してください。ネストされた参照をよりよく理解するためのリンクは大き

0熱

1答えて

AVRO形式で保存しようとしたときにPIGスクリプトエラー：データム2がユニオン["null"、 "string"]にありません

AVRO形式でデータを保存しようとしていますが、エラー。データム2は共用体ではありません["null"、 "string"]それはどういう意味ですか？解析用のxml： REGISTER piggybank.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/avro.jar REGISTER /opt/cloudera/parcels/CDH

0熱

1答えて

豚を使用してカスタム区切り記号（|）で単語をカウント

0熱

1答えて

xlsxファイルをブタ関係にロードする

xlsxファイルをブタ関係にロードしようとしています。このファイルには、データの一部として「、」を含むデータを含めることができます。だから私はそれをCSV形式に変換して読み込むことはできません。だから私は豚の関係にxlsxファイルをロードして、それ以上の処理のためにそれを取ろうとしています。しかし、xlsxファイルを豚関係にロードする方法についてはわかりません。私は以下のようないくつかのオプショ

0熱

1答えて

xmx1000mは、内部または外部コマンドとして認識されていません：Windows上の豚は

私はWindows 7の上のセットアップの豚にしようとしています私はすでにセットアップ豚には、Windows 7 上で実行されているHadoopの2.7単一ノードクラスタを持って、私が持っています次のステップを実行します。 C：へhttp://mirror.metrocast.net/apache/pig/ 抽出タール：タールダウンロード PIG_HOME = C：\ユーザー\ zeba \デスク

0熱

1答えて

どのようにグループ別に複数の列に豚のスクリプトで以下のSQLクエリの豚と同等のスクリプトがどうあるべきか

：表1の場合 SELECT fld1, fld2, fld3, SUM(fld4) FROM Table1 GROUP BY fld1, fld2, fld3; ： A B C 2 X Y Z A B C 3 X Y Z A B D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z OUTPUT： A B C 5 A B