はコードを考えてみましょう:奇妙な挙動は
val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from ORCtable")
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)
これは警告WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again.
コードがjava.lang.OutOfMemoryError: GC overhead limit exceeded
を失敗を生産しています。
しかし、私は次のコードを実行した場合:
val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from ORCtable limit 2000000")//only difference here
//ORC table has 1651343 rows so doesn't exceed limit 2000000
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)
これは正しい出力を生成します。私はこれがなぜ起こり、何が変わるのか、迷っている。誰かがこれを感知するのを助けることができますか?