バッチ層：Sparkはマスターデータから新しいデータをどのように読み込んで処理しますか？

私はラムダアーキテクチャを構築しています。私はストリーミングレイヤーをコーディングしましたが、今はバッチレイヤーをやっています。そのために、Spark 2をバッチプロセッサとして、HDFSをマスターデータとして使用しています。バッチ層：Sparkはマスターデータから新しいデータをどのように読み込んで処理しますか？

がHDFSからデータを読み取るには、私は以下のコードを書いた：このコードで、しかし

 SparkSession spark = SparkSession 
       .builder() 
       .appName("JavaWordCount") 
       .master("local") 
       .config("spark.sql.warehouse.dir", "file:///c:/tmp/spark-warehouse") 
       .getOrCreate(); 

     JavaRDD<String> msg = spark.read().textFile("HDFS://mypath/*").javaRDD();

を、スパークをrunnig後HDFSに挿入された新しいデータが読み込まれていません。私はどうすればそれを行うことができますか？

ストラクチャードストリーミング（http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html）のソリューションのみ、または別のソリューションがありますか？

出典

2016-12-20 Yassir S

はい、私の意見では、Spark 2.x Structure Streamingはそれを可能にします。

このプレゼンテーションは、Spark Summit 2017からご覧になることをお勧めします。https://www.youtube.com/watch?list=PLTPXxbhUt-YVEyOqTmZ_X_tpzOlJLiU2k&v=IJmFTXvUZgY

出典

2017-03-21 08:59:23

バッチ層：Sparkはマスターデータから新しいデータをどのように読み込んで処理しますか？

答えて

関連する問題