私は、Spark Streamingにデータを取り込むためにtextFileStreamを使用しています。しかし、データは1つのバッチに対してのみ処理されています。私の最初の質問は、ファイルから各レコードをストリーミングしないのですか?私は100Kデータレコードをcontanining 1ギガバイトのファイルをストリーミングする場合textFileStreamの混乱
https://docs.databricks.com/spark/latest/rdd-streaming/debugging-streaming-applications.htmlFor TextFileStream, since files are input, the # of input events is always 0. In such cases, you can look at the “Completed Batches” section in the notebook to figure out how to find more information.
によると第二に、私はスパークEngine.For例により処理されているレコードの数を知っていただきたいと思い、私はどのように知っていただきたいと思います多くのSpark Streamingがそれを実行しました。
誰でも自分の考えや役に立つリンクを教えてください。どんな助けもありがとう。
ありがとうございました。
スパークバージョン:2.0.1 データ摂取をAmazon S3からtextFileStream
経由で