0
私はpysparkセットアップを起動すると、Web上で楽しくアクセスできるJupiterノートブックを作成します。また、 'sc'や 'spark' - コンテキストなどのオブジェクトも自動的に作成されます。どのようにこれらのオブジェクトが初期化されるかを上書きできますか?jupyterノートブックでpysparkのデフォルトコンテキストを設定するには?
私はpysparkセットアップを起動すると、Web上で楽しくアクセスできるJupiterノートブックを作成します。また、 'sc'や 'spark' - コンテキストなどのオブジェクトも自動的に作成されます。どのようにこれらのオブジェクトが初期化されるかを上書きできますか?jupyterノートブックでpysparkのデフォルトコンテキストを設定するには?
純粋なpythonカーネルをjupyterで起動します。そして、火花やpysparkの環境変数を追加し、先頭に追加sys.path
をpysparkのLIBSに、例えば:
from pyspark.sql.session import SparkSession
spark = (SparkSession.builder
.appName('picapica')
.config('spark.speculation', 'true')
.getOrCreate())
:
import os, sys
os.environ['SPARK_HOME'] = '/home/mario/spark-2.1.0-bin-hadoop2.7'
os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[2] --driver-memory 2g pyspark-shell"
os.environ['PYSPARK_PYTHON'] = '/usr/bin/python3'
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip')
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python')
は、その後、例えば、jupyter細胞内でスパーク初期設定をカスタマイズすることができます