apache-pig

    1

    1答えて

    私はCSV形式で分割されたフォルダに関係を保存する方法を探しています。 私はシェルからブタを起動しています。 私はスタックを見ましたが、このケースについては何も見つかりませんでした。 私は、マルチフィールド選択を使用するために、最後のマルチストレージのpiggybank 0.14とjavaを使用しています。 リレーションを保存するためにCSVExcelStorageを使用すると、出力ファイルをシェ

    0

    1答えて

    私はPigを通してデータを取得しようとしています。そこファイル内の8Kのフィールドが>あり、私は、各列の上位10レコードを選択したい:現在、私はテーブル全体をロードし、変数名をスペルアウトしています 、SQLの select * from TABLE LIMIT 10; に相当しています豚で? 電流負荷 data = load 'xsf://EXAMPLE/1' using SomePigLoad

    0

    2答えて

    HDFS内に生ログを持つファイルがあります。 私たちの要件は、これらのファイルのすべてのログの最後に... pig/hadoopコマンド/その他のマップベースのツールを使用してテキスト( '12345'など)を追加することです。新しいログファイルにそれをline.Store chararray、それぞれにテキストを追加するためにCONCATを使用します。 おかげ AJ

    0

    1答えて

    私はPigの対話モードを使って作業しました。この間、私は、次のようなさまざまな異なるrelatin変数に異なるデータをロードしています grunt> student_data = LOAD '/home/training/Desktop/studentResult.txt' as(name:chararray,dept:chararray,marks:bytearray); grunt> em

    1

    1答えて

    コンマ(、)区切り(csv)のデータセットがあります。どこに区切り記号の後ろに空白があり、それは豚スクリプトで削除したいのですか。 "Sachin","India","batsaman","99","kolkata"," ","xyz"

    3

    1答えて

    でキーが一致するが、私は以下のようにサンプルデータを持っているときに、特定の列を合計する方法: (id,code,key,value) 1,A,p,10 2,B,q,20 3,B,p,30 3,B,q,20 3,C,t,60 3,C,q,20 PIGにそれを格納した後、私は以下のような出力が必要になります。 O/P: (A,{(p,10)}) (B,{(q,40),(p,3

    1

    1答えて

    ブタのparamファイルにシェル変数を渡す方法。例として、DB_NAMEとして定義されたシェル変数があります。私はそれを超えると動作しないと、エコー$ DB_NAMEはどちらか動作しないように私がしようとしなかったように私が試したp_db_nm = $ DB_NAME としての私の豚のパラメータファイルを定義したいと思います。 私はコマンドラインで-paramを使用することでこれを渡すことができま

    -1

    1答えて

    私はこのようなデータセットを持っています。 101、アミターブ、20000,1 102、シャールク、10000,5 103、Akshay、11000,1 104、Anubhav、5000,4 105、Pawan、2500,5 どのように行います以下の声明を達成する。 評価の高い上位5名(列4)。 (2人の従業員が同じ格付けを持つ場合は、最初に名前を持つ従業員が優先権を得るべきである)

    1

    1答えて

    に動作しません。 私は豚に正規表現を適用しようとしているが、それは 入力を動作しないようですよ: (main_170521230001.csv,"9","2017-05-21 23:00:01.472636") (main_170521230001.csv,"91","2017-05-21 23:00:01.472636") (main_170521230001.csv,"592","2017

    1

    1答えて

    MongoDB v3.2.4を使用して3つのメンバーレプリカセットがあります。各メンバーは8コアと8GB RAMのVMで、通常の動作ではこれらのノードのCPU消費量とメモリ消費量は非常に低くなっています。 私はPigで書かれたMap/Reduceジョブによって月に一度完全にリロードされる60GBのデータベース(3000万のドキュメント)を持っています。このジョブ中にクラスターは30kの挿入/挿入を