2016-07-08 7 views
2

私はシステム管理者ではありませんが、管理作業を行う必要があり、そのためにいくつかの助けが必要な場合があります。既存のHadoopクラスタにSparkをインストールしてください

私たちは(リモート)Hadoopクラスタを持ち、人々は通常クラスタ上でmap-reduceジョブを実行します。

クラスタ内のすべてのマシンを利用できるように、クラスタにApache Sparkをインストールする予定です。これは可能なはずと私はhttp://spark.apache.org/docs/latest/spark-standalone.htmlから読んだことがある「あなただけの同じマシン上の別のサービスとして起動することによって、既存のHadoopクラスタと一緒にスパークを実行することができます...」

あなたは前にこれを行っている場合は、私に与えてくださいSparkクラスタを作成するための詳細な手順。あなたはHadoopのがすでにクラスタにインストールされているとYARNに火花を実行したい場合は

答えて

3

は、それは非常に簡単です:

ステップ1: YARNマスターノードを探す(すなわち、どのリソースマネージャを実行します)。次の手順は、マスターノードでのみ実行してください。

ステップ2:Downloadスパークtgzパッケージを取り出し、どこかに抽出します。

ステップ3:例えば.bashrcでは、これらの環境変数を定義します。

# Spark variables 
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export SPARK_HOME=<extracted_spark_package> 
export PATH=$PATH:$SPARK_HOME/bin 

ステップ4:yarn-clientまたはyarn-master--masterオプションを使用して、スパークジョブを実行します。

spark-submit \ 
--master yarn-client \ 
--class org.apache.spark.examples.JavaSparkPi \ 
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \ 
100 

この特定の例では、Spark installatiに付属のコンパイル済みのサンプルジョブを使用していますに。

あなたはthis blog postを読むことができます。クラスタ上のHadoopとSparkのインストールの詳細については、書きました。

Javaで独自のSparkジョブをコンパイルして実行する方法については、次の記事を読むことができます。 PythonやScalaでジョブをコーディングしたい場合は、IPythonやZeppelinのようなノートブックを使うのが便利です。 Hadoop-Sparkクラスタhereでそれらを使用する方法の詳細をお読みください。

関連する問題