私はラムダアーキテクチャを構築しています。私はストリーミングレイヤーをコーディングしましたが、今はバッチレイヤーをやっています。そのために、Spark 2をバッチプロセッサとして、HDFSをマスターデータとして使用しています。バッチ層:Sparkはマスターデータから新しいデータをどのように読み込んで処理しますか?
がHDFSからデータを読み取るには、私は以下のコードを書いた:このコードで、しかし
SparkSession spark = SparkSession
.builder()
.appName("JavaWordCount")
.master("local")
.config("spark.sql.warehouse.dir", "file:///c:/tmp/spark-warehouse")
.getOrCreate();
JavaRDD<String> msg = spark.read().textFile("HDFS://mypath/*").javaRDD();
を、スパークをrunnig後HDFSに挿入された新しいデータが読み込まれていません。私はどうすればそれを行うことができますか?
ストラクチャードストリーミング(http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html)のソリューションのみ、または別のソリューションがありますか?