私は2つのファイルでデータを変換/結合するためにApache pigを使用したいと思いますが、それは実際のデータからテストしますが、小さなサイズ(例えば10行)でテストします。 STDINから読み込んでSTDOUTに出力するブタを使用することは可能ですか?Apache PigはファイルではなくSTDINからデータをロードできますか?
1
A
答えて
0
答えはいいえです。 MRジョブをデータ上で実行する前に、データノードのクラスタでデータを出力する必要があります。
しかし、小さなデータサンプルを使用していて単純なことをやりたいのであれば、ローカルモードでPigを使用し、stdinをローカルファイルに書き込んでスクリプトで実行することができます。
しかし、もっと大きな疑問があるのは、なぜデータのストリームでMR/Pigを使いたいのですか?このタイプの使用を意図したものでもありません。
2
基本的に、Hadoopはストリーミングをvarious waysでサポートしていますが、Pigはもともとストリーミングによるデータのロードをサポートしていませんでした。しかし、いくつかの解決策があります。
あなたはHStreamingをチェックアウトすることができます:
A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);
+1
私はそれがまったく涼しいと認めますが、HStreamingについて聞いたことはありません。私は常にKafkaやFlumeなどを見てきました。リアルタイム処理を行いますが、これについてはさらに読んでください。 – NerdyNick
関連する問題
- 1. .tsvファイルからPigにデータをロードするには?
- 2. PigからPandasにCSV/TSVファイルをロード/エクスポートする方法は?
- 3. Apache Pig/Apache Hiveでのデータ要約
- 4. PIGでCSVファイルをロード
- 5. OutOfMemoryError - メモリではなくファイルにデータをダンプできますか?
- 6. SKTextureAtlasは、 "ホスト"バンドルではなく "my"バンドルからバンドルをロードできますか?
- 7. Sqoopを使ってMySQLからPIGにデータをロードする
- 8. stdinにバイナリを置くことはできますか? C#
- 9. SQLiteOpenHelperは外部ファイルからテーブル・スクリプトをロードできますか?
- 10. Apache Pig:トークンタプルのバッグからストップワードを削除しますか?
- 11. JNIではなくApache Thriftを使用できますか?
- 12. Apache Pigでいくつかの列を交差する方法は?
- 13. フォームが.mdbファイルからデータをロードしないのはなぜですか?
- 14. Apache Nifi:RESTからDruidにデータをロード
- 15. Apache Pigを使用してファイルから「文字列式」を削除する手順/コードは何ですか?
- 16. APP-ENGINEは静的なjsonファイルからデータをロードするか、データをデータストアにロードしますか?
- 17. ハイブはHDFS上にない外部ロケーションからデータをロードできますか?
- 18. ファイルは常にサーバーからロードできますか?
- 19. jsonファイルからデータフレームに完全なデータをロードできませんでした
- 20. Apache Sparkはターゲット・データベースからすべてのデータをロードしますか?
- 21. Apache Pig FOREACHにはGENERATEが必要ですか?
- 22. Windowsフォームコントロールにロードできるデータの最大量はいくらですか?
- 23. ファイルからhiveconf変数をロードできますか? (HiveQLファイルとは別に)
- 24. JARからクラスをロードできますが、リソースをロードできないのはなぜですか?
- 25. excel(* .xlsx)(Apache POIを使用)からの情報をロードできないのはなぜですか?
- 26. HBaseStorageを使用してBigtableからDataprocのPig経由でロード
- 27. getResourcesAsStreamはjUnitからファイルをロードできません
- 28. Curlはvfsから一時ファイルをロードできません://
- 29. Apache StormのSpoutからBoltにファイルを渡すことはできますか?
- 30. 寄木細工ファイルをスパークデータフレームにロードできないのはなぜですか?
彼はそれを行う必要があるだろう、なぜにあなたの質問に答えるために、ここにanscenarioだ:私は豚を使用して分析する必要があるこれらの大きなログファイルを持っています。ログファイルの各エントリは、sedを1行にするために必要な複数行のエントリです。私はこれらの各行をsedから豚にパイプしたい(sedが読み込んだログファイルから2行分を1行にして豚に渡す)。 – Saichovsky
Storm(Twitterから)やKafka(Linkedinから)のような別の技術をチェックすることができます。 – NerdyNick