私は以下の2つのステートメントと大きく混乱しています。 1)正確にLOADステートメントがこの関係(学生)を格納する場所ですか、それはhdfs/PIG内部ストレージ/ローカルマシンですか?正確にPIGはその関係を保存します
example : student = LOAD 'HDFS:/student' using PigStorage(',');
2)私がダンプの学生にしようとすると、 LOADステートメントが1〜2秒かかったときに結果を表示するのに30〜40秒かかります。ブタの内部ストレージからデータを取得しようとすると、なぜこの遅延が発生しますか?
誰でもこの疑念(好ましくは実行の流れ)をクリアできるならば、感謝します。ありがとうございました。
私のenv:私は学習目的でVMを使用しています。
返信いただきありがとうございます。ファイルへのポインタによって、データがまだHDFS上にあることを意味しますか? LOADコマンドはGruntシェルで処理するファイルのインスタンスを作成しますか? – user1708054
はい。マップモードで豚を実行している場合はローカルHDFSにデータがあり、ローカルモードで実行している場合はローカルになります –
ダンプまたはストア文がない限り、実際には何も実行されません。ストアまたはダンプが要求された場合にのみ、Pigは実行計画(map-reduceジョブ)を生成して実行します。 – LiMuBei