0
私のコードでは、空のデータフレームをフィルタリングする一連のデータフレームがあります。私が何かやっている:Sparkのdataframe count()関数の処理時間が非常に長い
Seq(df1, df2).map(df => df.count() > 0)
をしかし、これは非常に長いを取っているし、100kの行ごとのおよそ2データフレームのための約7分を消費しています。
私の質問:なぜSparkのcount()の実装が遅いのですか?回避策はありますか?