私はSparkプログラムのリソース制限にぶつかっていたので、処理を反復に分割し、各反復の結果をHDFSにアップロードしたいと考えています。Sparkで2つのRDDをシリアルで処理するには?
do something using first rdd
upload the output to hdfs
do something using second rdd
upload the output to hdfs
しかし、私の知る限りでは、スパークは、並行して、これらの2を実行しようとします。 2番目のrddを処理する前に、最初のrddの処理を待つ方法がありますか?
スパークは両方のRDDを同時に処理しようとしていますか?それは間違っている! – eliasah
これはシリアルで処理されますか? – pythonic
はい!あなたがそれをテストしたなら、あなたは知っているでしょう。 – eliasah