(textFileStreamを使用して)ディレクトリからファイルを取得するSparkストリーミングジョブを実行しています。 ジョブがダウンしてもファイルはまだディレクトリに追加されている場合があります。 ジョブが再び起動すると、それらのファイルは(ジョブが実行されている間に新しいものではなく、変更されていないので)ピックアップされていませんが、処理されたいものです。Sparkでは古いデータの処理方法と処理済みデータの削除方法
1)解決策はありますか?どのファイルが処理されたかを追跡する方法はありますか?古いファイルを取り込むことを強制することはできますか?
2)処理されたファイルを削除する方法はありますか?
これは、この2年前のスパークユーザーメーリングリストで尋ねられたまったく同じ質問(文字通り単語単位)です。そのメールチェーンの返信は疑問に答えますか? https://mail-archives.apache.org/mod_mbox/spark-user/201502.mbox/%[email protected].com%3E –
チェックポイント機能はありますか? – user179156