、次のコードは2つのステージが同じRDDを使用している場合、同じファイルを2回読み込みますか?スパーク
rdd = sc.textfile("file path")
rdd1 = rdd.filter(filter1).maptopair();
rdd2 = rdd.filter(filter2).maptopair();
rdd3 = rdd1.join(rdd2);
rdd3.saveastextfile();
3つの段階を生成します。 SparkのWeb UIからステージ1とステージ2が並行して実行され、ステージ2(ステージ3)は最初の2つが実行された後にトリガーされます。 私の質問はステージ1とステージ2の両方で同じファイルを同時に読むのですか? これは、Sparkが同じファイルを2回読み込むことを意味しますか?
まあ、このコード以外のパフォーマンスは、実行時またはコンパイル時に失敗します。 – zero323
2つの 'filter'アクションを使用している場合、' join'を使わずに1つのステップにまとめることができます –