2017-04-05 15 views
1

SparklyRおよびSpark 2.0.2を使用してロジスティック回帰を呼び出した後、Sparkで次のエラーが発生します。SparkおよびSparklyRエラーが「64 KBを超えて拡大」

ml_logistic_regression(Data, ml_formula) 

私がSparkに読み込んだデータセットは、比較的大きく(2.2GB)です。ここではエラーメッセージは次のとおりです。

Error: org.apache.spark.SparkException: Job aborted due to stage failure: Task 
13 in stage 64.0 failed 1 times, most recent failure: 
Lost task 13.0 in stage 64.0 (TID 1132, localhost):  
java.util.concurrent.ExecutionException: 
java.lang.Exception: 
failed to compile: org.codehaus.janino.JaninoRuntimeException: 
Code of method "(Lorg/apache/spark/sql/catalyst/InternalRow;)Z" 
of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificPredicate" 
grows beyond 64 KB 

その他は同様の問題があった:https://github.com/rstudio/sparklyr/issues/298が、私は、解像度を見つけることができません。何か案は?

+1

http://stackoverflow.com/questions/40044779/find-mean-and-corr-of-10-000-columns-in-pyspark-dataframe – pasha701

答えて

1

データをサブセット化してモデルを実行しようとするとどうなりますか?あなたは、データのサイズに対処するための構成設定を変更する必要があるかもしれません:

library(dplyr) 
library(sparklyr) 
#configure the spark session and connect 
config <- spark_config() 
config$`sparklyr.shell.driver-memory` <- "XXG" #change depending on the size of the data 
config$`sparklyr.shell.executor-memory` <- "XXG" 

sc <- spark_connect(master='yarn-client', spark_home='/XXXX/XXXX/XXXX',config = config) 

パフォーマンスに対処するだけでなく変更される可能性spark_config()の他の設定があります。これはカップルの一例です。

+0

これは、より小さいデータを占有してもうまく動作します。 –

関連する問題