1
私は、各列のフィルタ(値> 0)を持つすべての列の数が必要なデータフレームを持っています。する方法SPARK/SCALAで複数の列数を効率的に使用できますか?
今私がやっている:
import org.apache.spark.storage.StorageLevel._
df.persist(MEMORY_AND_DISK)
val totalCustomers = df.count
val totalpurchaseCount = df.filter("totalpurchase > 0").count
val totalRentsCount = df.filter("totalRent > 0").count
val totalTVCount = df.filter("tvCount > 0").count
val totalMovieCount = df.filter("movieCount > 0").count
val totalKidsCount = df.filter("kidsCount > 0 ").count
val totalNonKidsCount = df.filter("adultsCount > 0").count
は、これを効率的に行うための方法はありますか?