sparkストリーミングアプリケーションで作業しています。私は特定の条件を確認する必要があるという要件を持っています(ローカルFSに存在するファイルを読むことによって)。 私がやってみました:Spark:各エグゼキュータでrddを処理する前にカスタムメソッドを呼び出してください。
lines.foreachRDD{rdd =>
verifyCondition
rdd.map() ..
}
def verifyCondition(){
...
}
をしかしverifyConditionはドライバによって実行されています。各エグゼクティブが実行できる方法はありますか?
おかげ
'lines' RDDの要素ごとに1回条件を確認しますか?または、エグゼキュータで実行されていることを確認したいだけですか? –
すべてのエグゼキュータとドライバに関するデータのバッチごとに1回実行するようにします – Alok