2017-02-16 4 views

答えて

0

純粋なpythonカーネルをjupyterで起動します。そして、火花やpysparkの環境変数を追加し、先頭に追加sys.pathをpysparkのLIBSに、例えば:

from pyspark.sql.session import SparkSession 
spark = (SparkSession.builder 
    .appName('picapica') 
    .config('spark.speculation', 'true') 
    .getOrCreate()) 

import os, sys 
os.environ['SPARK_HOME'] = '/home/mario/spark-2.1.0-bin-hadoop2.7' 
os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[2] --driver-memory 2g pyspark-shell" 
os.environ['PYSPARK_PYTHON'] = '/usr/bin/python3' 
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip') 
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python') 

は、その後、例えば、jupyter細胞内でスパーク初期設定をカスタマイズすることができます

関連する問題