2017-08-16 12 views
1

私はZeppelin 0.7.2とSpark 2.1.1で基本回帰を実行しようとしています。/usr/local/sparkの/ usr/local/zeppelin /を意味します。 Zeppelinは正しいSPARK_HOMEも知っています。最初に私は、データをロード:Zeppelin/Spark:org.apache.spark.SparkException: "/ usr/bin /"プログラムを実行できません:エラー= 13、許可なし

%spark.pyspark 
from sqlalchemy import create_engine #sql query 
import pandas as pd #sql query 
from pyspark import SparkContext #Spark DataFrame 
from pyspark.sql import SQLContext #Spark DataFrame 

# database connection and sql query 
pdf = pd.read_sql("select col1, col2, col3 from table", create_engine('mysql+mysqldb://user:[email protected]:3306/db').connect()) 

print(pdf.size) # size of pandas dataFrame 

# convert pandas dataFrame into spark dataFrame 
sdf = SQLContext(SparkContext.getOrCreate()).createDataFrame(pdf) 

sdf.printSchema()# what does the spark dataFrame look like? 

ファイン、それが動作し、私は46977行で出力し、3つのcolsのを取得:

46977 
root 
|-- col1: double (nullable = true) 
|-- col2: double (nullable = true) 
|-- col3: date (nullable = true) 

[OK]を、今私は、回帰をしたい:

%spark.pyspark 
# do a linear regression with sparks ml libs 
# https://community.intersystems.com/post/machine-learning-spark-and-cach%C3%A9 
from pyspark.ml.regression import LinearRegression 
from pyspark.ml.feature import VectorAssembler 

# choose several inputCols and transform the "Features" column(s) into the correct vector format 
vectorAssembler = VectorAssembler(inputCols=["col1"], outputCol="features") 
data=vectorAssembler.transform(sdf) 
print(data) 

# Split the data into 70% training and 30% test sets. 
trainingData,testData = data.randomSplit([0.7, 0.3], 0.0) 
print(trainingData) 

# Configure the model. 
lr = LinearRegression().setFeaturesCol("features").setLabelCol("col2").setMaxIter(10) 

## Train the model using the training data. 
lrm = lr.fit(trainingData) 

## Run the test data through the model and display its predictions for PetalLength. 
#predictions = lrm.transform(testData) 
#predictions.show() 

しかし、lr.fit(trainingData)を実行しているうちに、コンソール(zeppelinのログファイル)にエラーが表示されます。エラーはsparkを起動している間のようです:"/ usr/bin /"プログラムを実行できません:error = 13、Keine Berechtigung。私は/ usr/local /というパスしか使わないので、/ usr/bin /で何を始めるべきか疑問に思います。

Traceback (most recent call last): 
    File "/tmp/zeppelin_pyspark-4001144784380663394.py", line 367, in <module> 
    raise Exception(traceback.format_exc()) 
Exception: Traceback (most recent call last): 
    File "/tmp/zeppelin_pyspark-4001144784380663394.py", line 360, in <module> 
    exec(code, _zcUserQueryNameSpace) 
    File "<stdin>", line 9, in <module> 
    File "/usr/local/spark/python/pyspark/ml/base.py", line 64, in fit 
    return self._fit(dataset) 
    File "/usr/local/spark/python/pyspark/ml/wrapper.py", line 236, in _fit 
    java_model = self._fit_java(dataset) 
    File "/usr/local/spark/python/pyspark/ml/wrapper.py", line 233, in _fit_java 
    return self._java_obj.fit(dataset._jdf) 
    File "/usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__ 
    answer, self.gateway_client, self.target_id, self.name) 
    File "/usr/local/spark/python/pyspark/sql/utils.py", line 63, in deco 
    return f(*a, **kw) 
    File "/usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value 
    format(target_id, ".", name), value) 
Py4JJavaError: An error occurred while calling o70.fit. 
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): **java.io.IOException: Cannot run program "/usr/bin/": error=13, Keine Berechtigung** 
    at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) 
    at org.apache.spark.api.python.PythonWorkerFactory.startDaemon(PythonWorkerFactory.scala:163) 
    at org.apache.spark.api.python.PythonWorkerFactory.createThroughDaemon(PythonWorkerFactory.scala:89) 
    at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:65) 
    at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:116) 
    at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:128) 
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63) 
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 

答えて

1

ツェッペリンconf/zeppelin-env.shでは設定エラーでした。そこに、私はエラーの原因となった次の行コメント解除していたし、私は今の行をコメントし、それが動作:

#export PYSPARK_PYTHON=/usr/bin/ # path to the python command. must be the same path on the driver(Zeppelin) and all workers. 

だから、問題はPYSPARK_PYTHONへのパスが正しく設定されていなかったということでした、今では、デフォルトのPythonのバイナリを使用しています。 Zeppelinベースディレクトリのgrep -R "/usr/bin/"を実行して文字列/usr/bin/を探し、ファイルをチェックして解決策を見つけました。

関連する問題