1
すべてのタスクが成功した後に、データフレームからパーケージテーブルにデータを書き込むと、パーティション統計の更新時に処理が停止します。Spark Data Frame parquet tableへの書き出し - 遅いパーティション統計の更新
16/10/05 03:46:13 WARN log: Updating partition stats fast for:
16/10/05 03:46:14 WARN log: Updated size to 143452576
16/10/05 03:48:30 WARN log: Updating partition stats fast for:
16/10/05 03:48:31 WARN log: Updated size to 147382813
16/10/05 03:51:02 WARN log: Updating partition stats fast for:
df.write.format("parquet").mode("overwrite").partitionBy(part1).insertInto(db.tbl)
Myテーブルのカラム数は400を超え、> 1000です。 パーティションの統計情報を更新して高速化できるかどうかお知らせください。
私は同じ問題があり、ディスクに書き込むときにパーティションの列を指定していません。私は何の統計が計算されているのか理解できませんでしたか?もっと説明できますか? –