spark/scalaからhdfsへのパーティションによるパーケットへの単純な書き込みが数秒間で問題になる理由を突き止めることはできません私がs3に書き込む時は分です。spark 2.xパーティションによるパーケットによる書き込みは、非常に遅いhdfsと比較して
def saveDF(df: org.apache.spark.sql.DataFrame) : Unit = {
df.write
.mode("overwrite")
.option("compression", "snappy")
.partitionBy("col")
// .parquet(s"hdfs://localhost:9000/${fileout}") // this is a few seconds
.parquet(s"s3a://${s3bucket}/${s3folder}/${fileout}") // this is a few minutes
}
興味深い点 – eliasah