Apache Spark Javaを使用してhdfsからファイルをストリームとして読み込むにはどうすればよいですか? ファイル全体を読み込みたくない場合は、条件が満たされたときにファイルの読み込みを停止するためにファイルストリームを作成したいのですが、どのようにApache Sparkで行うことができますか?Apache SparkファイルをHDFSからストリームとして読み込みます
6
A
答えて
1
あなたはSSCメソッドを使用してストリーミングHDFSファイルを使用することができます
ヴァルSSC =新しいStreamingContext(sparkConf、秒(batchTime))
ヴァルDSTREAM = ssc.fileStream [LongWritable、テキスト、TextInputFormat]( streamDirectory 、(x:パス) => true、newFilesOnly = false)
上記の使用api 処理するパスをフィルタリングする機能。
条件がファイルパス/名前ではなく、データに基づいている場合は、条件が満たされればストリーミングコンテキストを停止する必要があります。
1つのスレッドでは、ストリーミングコンテキストが停止していることを確認し、sscが停止している場合は、別のスレッドに待機して新しいストリーミングコンテキストを作成するよう通知する必要があります。
2)2番目のスレッドでは、条件を確認し、条件が満たされた場合にストリーミングコンテキストを停止する必要があります。
説明が必要な場合はお知らせください。
+0
私は例えば2つのファイルがあり、それぞれから数行から数えてN行だけを読みたいという問題があります。あなたのソリューションは非常に高価になります。 – Maksym
関連する問題
- 1. sparkのhdfsからのorc/parquetファイルの読み込み
- 2. SparkのストリームからH2OへのJSONファイルの読み込み
- 3. HDFSディレクトリからファイルを読み込み、PythonでSparkでRDDを作成する
- 4. ストリームからストリームを読み込み[C#]
- 5. hdfsからzipファイルを読み込み、spark javaを使用して抽出します。
- 6. Apache BeamのGCSからファイルを読み込みます。
- 7. ファイルからバイト[]を読み込み、読み込みます
- 8. MongoDBからSparkを読み込み、objectIdインデックスフィールドでフィルタリングします
- 9. Apache Sparkのテキストファイルを読み込みできません。
- 10. スカラーを使用してhdfsからデータを読み込みます
- 11. sparkのtar.gzアーカイブからファイルを読み込み
- 12. ストリーム画像としてPCから画像を読み込みます
- 13. Spark XMLファイルの読み込み
- 14. SparkでのAvroファイルの読み込み
- 15. spark-submitからアプリケーションを実行しているときにjarから入力ファイルを読み込みます。
- 16. リモートHDFSからファイルを読み取る
- 17. WPF - ストリームからフォントを読み込みますか?
- 18. fread()とgrep-lostカラム名を使用してHDFSからRにcsvファイルを読み込みます
- 19. C#XPSストリームのfpageからXMLを読み込みます。
- 20. ルビからUSB入力ストリームを読み込みます。
- 21. アンドロイドボックスのHDMI入力から生ストリームを読み込みます
- 22. sc.textFile(APACHE SPARK RDD)を使用して読み込み中にカンマをエスケープする
- 23. apache spark:ディレクトリから大容量のファイルを読み取る
- 24. BigQueryからSparkに効率的に読み込みますか?
- 25. スパークストリーミングとApache flumeを通してHDFSにKafkaトピックを読み込む方法
- 26. Apache Spark Dataframe - CSVファイルのn番目の行からデータを読み込みます。
- 27. ファイルから読み込み、\ nとスペースを削除します
- 28. Apache Samzaのファイルをローカルファイルシステムとhdfsシステムから読み取る方法
- 29. ファイルからダブルベクトルを保存して読み込みます。
- 30. ステージステージ1:HDFS読み取り:0 HDFS書き込み:0 FAIL
Chck this :: https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/HdfsWordCount.scala – yoga
この例はありません私の質問に関連して。 – Maksym
達成しようとしていることをよりよく説明できますか?なぜそれをストリームとして必要とするのですか(単にRDD /データフレームとして読むのではなく)?スパークストリーミングを使用してHDFSディレクトリの内容を読み込み、次の時間を待たずに終了する方法を尋ねていますか? DStreamや構造化ストリーミングについても話していますか? –