apache-pig

    2

    1答えて

    私は、Pigジョブの出力で作業できるPythonコードを書くための「正しい」方法を探しています。 ここは私の状況です。私は大量のデータをクランクして少数の関係を出力するために豚スクリプトを書いた。出力データの量は、コンソールに直接ダンプするのに十分です。例えば:次のステップとして grunt> DUMP results (Control, column1, column2, column3, c

    0

    1答えて

    私はCassandra + Pig/Hadoopのテストインテグレーションをセットアップしました。 8ノードはCassandra + TaskTrackerノード、1ノードはJobTracker/NameNodeです。 私はカサンドラクライアントを解雇し、カサンドラ分布でのReadme.txtに記載されているデータの単純なビットを作成:私はCASSANDRA_HOMEに記載されているサンプル豚のク

    1

    1答えて

    カンマで区切ったリストを使って、PigのAvroStorageでいくつかのファイルを読み込もうとしました。私が使用した記述は: test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING org.apache.pig.piggybank.storage.avro.AvroStorage(); ジョブで指定さ

    5

    1答えて

    PIGでどのようなファイル形式を読むことができますか? どうすれば別の形式で保存できますか?私たちはCSVファイルを持っていて、これをMXLファイルとしてどのように保存したいのですか?私たちがSTOREコマンドを使用するたびにディレクトリを作成し、ファイルをpart-m-00000として保存します。ファイルの名前を変更したり、ディレクトリを上書きするにはどうしたらいいですか?

    0

    1答えて

    私は、文字列値または複合型値の列ファミリを持っています。 この種のデータをcassandraからpigにロードするにはどうすればよいですか?

    5

    1答えて

    今 grunt> dump jn; (k1,k4,10) (k1,k5,15) (k2,k4,9) (k3,k4,16) grunt> jn = group jn by $1; grunt> dump jn; (k4,{(k1,k4,10),(k2,k4,9),(k3,k4,16)}) (k5,{(k1,k5,15)}) 、ここから私は次のように出力したい: (k4,{

    1

    3答えて

    私はPIGを使ってCSVファイルを読みたいのですか?私はload n pigstorage( '、')を使用しましたが、CSVファイルを正しく読み込むことができませんでした。なぜならデータにカンマ(、)が遭遇するからです。データをカンマで区切ってもdelimeterを与えるべきですか?

    4

    1答えて

    私はしばらくの間この質問に固執してきました。私は次のようなデータファイルを持っています: 2012/01/01 Name1 "Category1,Category2,Category3" 2012/01/01 Name2 "Category2,Category3" 2012/01/01 Name3 "Category1,Category5" 各項目はカンマ区切りのカテゴリリスト

    0

    1答えて

    PIGを使用して代理キージェネレータを実装しようとしています。 最後に生成されたキーをデータベースに保持し、次に使用可能なキーをデータベースに照会する必要があります。 PIGにODBCを使用してデータベースを照会するサポートはありますか? はいの場合は、ガイダンスやサンプルを提供してください。

    5

    8答えて

    Apache Pigを使用して行番号を追加するときに問題があります。 問題は、STR_ID列があり、STR_IDの行番号であるデータのROW_NUM列を追加したいということです。 STR_ID ------------ 3D64B18BC842 BAECEFA8EFB6 346B13E4E240 6D8A9D0249B4 9FD024AA52BA 私のような出力を得るにはどうすれば