2016-12-20 6 views
1

私はラムダアーキテクチャを構築しています。私はストリーミングレイヤーをコーディングしましたが、今はバッチレイヤーをやっています。そのために、Spark 2をバッチプロセッサとして、HDFSをマスターデータとして使用しています。バッチ層:Sparkはマスターデータから新しいデータをどのように読み込んで処理しますか?

がHDFSからデータを読み取るには、私は以下のコードを書いた:このコードで、しかし

 SparkSession spark = SparkSession 
       .builder() 
       .appName("JavaWordCount") 
       .master("local") 
       .config("spark.sql.warehouse.dir", "file:///c:/tmp/spark-warehouse") 
       .getOrCreate(); 

     JavaRDD<String> msg = spark.read().textFile("HDFS://mypath/*").javaRDD(); 

を、スパークをrunnig後HDFSに挿入された新しいデータが読み込まれていません。私はどうすればそれを行うことができますか?

ストラクチャードストリーミング(http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html)のソリューションのみ、または別のソリューションがありますか?

答えて

関連する問題