apache-pig

0熱

1答えて

ハイブ例外java.io.IOExceptionで失敗しました：java.lang.ClassCastException：java.sql.Timestampはjava.sql.Dateにキャストできません

私はブタ0.15を使用しています。このファイルを以下のようにORC形式で保存しました。今、私は、クエリ下の彼はエラーになりますラントたい CREATE EXTERNAL Table emp123( empno BIGINT, ename STRING, job String, mgr FLOAT, hiredate DATE, sal

0熱

1答えて

Hadoop Pigでのクリック率計算

CTR（国別レベルでのクリック数に対するクリック数）、Iテーブル構造（インプレッションテーブルとクリックテーブル）、およびHadoop Pigでのコードを計算する必要があります。私の質問は、実装が最も効率的かどうか、より効率的な解決策があるかどうかです。ありがとう。テーブルの印象： impressionID、タイムスタンプ、countryID クリックテーブル： impressionID、タイム

0熱

1答えて

豚の数問い合わせ

私は5未満の得点の学生を見つける必要があります。私はファイルをロードしました。グレードのフィルタを使用しています私は今カウント方法を取得していません。は

-1熱

1答えて

豚分コマンドとORDER BY

は私が注文を実行しようとし、殻の形で$ 917.14、$ 654.23,2013 Iカラム$ 1内の最小値を見つける必要があると$ 2 データを持っていますこれらの列の昇順でしかし、答えは正しく出ていません。誰でも助けてくれますか？

0熱

1答えて

Hadoop Pig Max - 正しくない出力

明らかに単純なPIG MAX関数で問題が発生しています。合計を計算したグループを作成しました。 C3 = FOREACH C2 GENERATE group, SUM(C1.figures); 私は今、私は、出力は、私は次のコードに C4 = FOREACH C3 GENERATE $0 as (id: chararray), $1 as (id2:long); C5 = GROUP C4

0熱

1答えて

apacheの豚負荷データ私はapacheの豚を使用したデータのロードに関する問題を抱えている

こんにちは皆、ファイル形式は次のようである： "1","2","xx,yy","a,sd","3" だから私は、複数の区切り文字"," 2doubleを使用して、それをロードします引用符など1つのカンマ：私はそれを行うことができます.How A = LOAD 'file.csv' USING PigStorage('","') AS (f1,f2,f3,f4,f5); しかしPigStor

0熱

1答えて

AWS EMRのブタを使用したJavaヒープスペース

40GBのテキストファイルを処理するAWS EMRクラスター（4コアm3.xlarge）でこの問題が発生しました。 FATAL [メイン] org.apache.hadoop.mapred.YarnChild：実行エラー子：java.lang.OutOfMemoryErrorを：Javaヒープスペースはそれはマップの処理中に発生します。ジョブの開始は数分後に失敗します。 EMR-4.4.0、2.

0熱

1答えて

大量のデータを豚に読み込む

豚のこのクエリを使用して、50000レコードのデータを含むCSVファイルからデータを読み込みます。ここで A = LOAD '/home/user/q2.csv' using org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE') as (Id:chararray, PostTypeId:chararray,

0熱

1答えて

hadoopエコシステムでは、私は豚を使用しており、次のクエリで固執していますか？

country_landmass_sorted = foreach country_landmass { country_landmass_count = foreach country generate group,COUNT(name) as r; sorted = ORDER country_landmass_count BY $1 DESC; GENERATE group, sort

0熱

1答えて

ネストされた寄木細工のファイルをPigにロードしますか？

寄木細工のファイルは、Avroファイルから作成されます。今、私はPegにParquetファイルをロードする必要があります。以下は私がparquet-tools schemaコマンドから得たスキーマです。 message Logs { optional group SUPER1 { optional group FIELD1 (LIST) { repeated int