SparklyRおよびSpark 2.0.2を使用してロジスティック回帰を呼び出した後、Sparkで次のエラーが発生します。SparkおよびSparklyRエラーが「64 KBを超えて拡大」
ml_logistic_regression(Data, ml_formula)
私がSparkに読み込んだデータセットは、比較的大きく(2.2GB)です。ここではエラーメッセージは次のとおりです。
Error: org.apache.spark.SparkException: Job aborted due to stage failure: Task
13 in stage 64.0 failed 1 times, most recent failure:
Lost task 13.0 in stage 64.0 (TID 1132, localhost):
java.util.concurrent.ExecutionException:
java.lang.Exception:
failed to compile: org.codehaus.janino.JaninoRuntimeException:
Code of method "(Lorg/apache/spark/sql/catalyst/InternalRow;)Z"
of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificPredicate"
grows beyond 64 KB
その他は同様の問題があった:https://github.com/rstudio/sparklyr/issues/298が、私は、解像度を見つけることができません。何か案は?
http://stackoverflow.com/questions/40044779/find-mean-and-corr-of-10-000-columns-in-pyspark-dataframe – pasha701