0
私はスパークストリーミングを介して、複数のファイルをhadoopファイルシステムから複数読み取ろうとしています。それを行う可能性はありますか?あなたが私に解決策を教えてもらえますか?スパークストリーミングで複数の.gzファイルを処理する方法は?
私はスパークストリーミングを介して、複数のファイルをhadoopファイルシステムから複数読み取ろうとしています。それを行う可能性はありますか?あなたが私に解決策を教えてもらえますか?スパークストリーミングで複数の.gzファイルを処理する方法は?
スパークストリーミングプロセスファイルはタイムスタンプに基づいています。つまり、スパークストリーミングの開始後に特定のパスに追加されたファイルだけが処理されました。スパークストリーミングは、ストリーミングコンテキストの開始前に配置されたファイルを処理しません。
ストリーミングは、古いデータではなく、実際のデータで動作します。