apache-pig

    9

    2答えて

    私は豚のデータをExcelやSQL(またはRやSPSSなど)で多くの操作を行うことなく使用することができます... 私は次の関数を使用して試してみた: STORE pig_object INTO '/Users/Name/Folder/pig_object.csv' USING CSVExcelStorage(',','NO_MULTILINE','WINDOWS'); それは一部-

    9

    1答えて

    によって(勝利、リクエストとレスポンスがちょうどテーブルがファイルシステムから直接ロードされている): win_request = JOIN win BY bid_id, request BY bid_id; win_request_response = JOIN win_request BY win.bid_id, response BY bid_id; win_group = GROUP

    14

    1答えて

    文字列中に別の文字列が含まれているかどうかを調べたい。私は内蔵のindex関数があることを発見しましたが、文字列ではない文字のみを検索します。 他の方法はありますか?

    12

    4答えて

    これは愚かな問題のようですが、私の行からnull値をフィルタリングする方法を見つけることができません。 私は、オブジェクトgeoinfoをダンプする際にこれが結果です:ここ DUMP geoinfo; ([longitude#70.95853,latitude#30.9773]) ([longitude#-9.37944507,latitude#38.91780853]) (null) (null

    6

    2答えて

    私は最近、Cassandraが時間ベースのイベントをイベントタイプごとにカスタムttlsで保存することに合っていました(もう1つの解決策は、hadoopに保存して手動で簿記することです) IMHOは非常に複雑なアイデア)、またはhbaseに切り替える)。 問題は、Datastax Enterprise Editionなしで、cassandra MapReduceサポートがすぐに使えることです。 C

    5

    2答えて

    カスタムクラスローダーを使用してクラスを動的にロードできることはわかっています。 しかし、ここで私の問題は、それ自体、私のクラスである 私の仕事は、私がPigServerクラス _pigServerClass = _classLoader.loadClass("org.apache.pig.PigServer"); しかし、ここでPigServerクラス自体が依存でロードするには、次のコードを

    5

    1答えて

    私はPigServerクラスを使用して埋め込みのピグプログラムを作成しました。しかし、PigRunnerクラスを使用してクエリを実行できることもわかりました。 どちらが優れているか誰にでも通知できますか?理由を説明してください。

    6

    2答えて

    PigでタプルのMAXを見つけるにはどうすればよいですか? A,20 B,10 C,40 D,5 data = LOAD 'myData.txt' USING PigStorage(',') AS key, value; all = GROUP data ALL; maxKey = FOREACH all GENERATE MAX(data.value); DUMP maxKey;

    8

    1答えて

    Apache PIGを使用しているときにPython UDFから辞書を返す出力スキーマとは何ですか? 私は、このような何かの辞書の辞書を持っている:豚に我々は[]マップのどの本を使用しているため**角括弧を dict = {x:{a:1,b:2,c:3}, y:{d:1,e:3,f:9}} を、私の出力スキーマが @outputSchema("m:map[im:map[X:float,Y:fl

    6

    4答えて

    : A = load 'data' using PigStorage('\t'); store A into my_data using PigStorage(); これは私がHDFS に格納されている各ファイルへの最初のヘッダ行を追加したい (Bob, 10, 4.0) (Jim, 11, 3.25) (Paul, 9, 2.75) を出力します (Name, Age, GPA)