2017-09-18 6 views
0

私はSparkRカーネルと一緒にDockerized imageとJupyterノートブックを使用しています。 SparkRノートブックを作成すると、バニラCRAN Rのインストール(3.2.3)の代わりにMicrosoft R(3.3.2)のインストールが使用されます。Jupyter + SparkRとカスタムRのインストール方法

私が使用しているDockerイメージは、いくつかのカスタムRライブラリとPythonパッケージをインストールしますが、Microsoft Rを明示的にインストールしません。Microsoft Rを削除したり、サイドバイサイドを使用できるかどうかにかかわらず、how SparkRカーネルにRのカスタムインストールを使用させることができますか?

+0

https://spark.apache.org/docs/latest/configuration.html#sparkrが私の解決策の作業をした:これは、より完全にここに文書化されて

"spark.r.command": "/custom/path/bin/R", "spark.r.driver.command": "/custom/path/bin/Rscript", "spark.r.shell.command" : "/custom/path/bin/R" 

: – desertnaut

答えて

0

ドッカー関連の問題はさておき、事前に

おかげで、Jupyterカーネルの設定は、コマンドjupyter kernelspec listを使用して見ることができ、特定のディレクトリ(カーネルに1つ)に存在する、kernel.jsonという名前のファイルに設定されています。例えば、ここでのケースでは、私の(Linux)のマシンである:

$ jupyter kernelspec list 
Available kernels: 
    python2  /usr/lib/python2.7/site-packages/ipykernel/resources 
    caffe   /usr/local/share/jupyter/kernels/caffe 
    ir   /usr/local/share/jupyter/kernels/ir 
    pyspark  /usr/local/share/jupyter/kernels/pyspark 
    pyspark2  /usr/local/share/jupyter/kernels/pyspark2 
    tensorflow /usr/local/share/jupyter/kernels/tensorflow 

は再び、一例として、ここでは私のRカーネルのkernel.jsonir

{ 
    "argv": ["/usr/lib64/R/bin/R", "--slave", "-e", "IRkernel::main()", "--args", "{connection_file}"], 
    "display_name": "R 3.3.2", 
    "language": "R" 
} 

そして、ここでの内容は、

{ 
"display_name": "PySpark (Spark 2.0)", 
"language": "python", 
"argv": [ 
    "/opt/intel/intelpython27/bin/python2", 
    "-m", 
    "ipykernel", 
    "-f", 
    "{connection_file}" 
], 
"env": { 
    "SPARK_HOME": "/home/ctsats/spark-2.0.0-bin-hadoop2.6", 
    "PYTHONPATH": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python:/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/lib/py4j-0.10.1-src.zip", 
    "PYTHONSTARTUP": "/home/ctsats/spark-2.0.0-bin-hadoop2.6/python/pyspark/shell.py", 
    "PYSPARK_PYTHON": "/opt/intel/intelpython27/bin/python2" 
} 
} 

あなたが見ることができるように、両方のケースでargvの最初の要素がのために実行可能である:私のpyspark2カーネルのそれぞれのファイルがありますそれぞれの言語 - 私の場合はirカーネルの場合はGNU R、pyspark2カーネルの場合はインテルPython 2.7です。これを変更してGNU R実行ファイルを指すようにして、問題を解決する必要があります。

0

は、私はあなたがスパークを起動すると、次のアプリケーションのプロパティを設定する必要があると考えているカスタムR環境を使用するには?
関連する問題