YARNのスパーク・セットアップの旧バージョンを使用していますが、それでも新しいバージョンを使用したいと思っています。私は脂肪の瓶がこれのためにどのように使用できるのかを参照して投稿をcouple見つけました。YARNで複数のバージョンを実行するファット・ファー・ジャー
Many so postsファットジャーを作成するには、maven(公式にサポートされている)またはsbtのいずれかを指してください。downloadでは直接利用できないためです。 maven-assembly-plugin、maven-shade-plugin、onejar-maven-pluginなど複数のプラグインがあるようです。
しかし、本当にプラグインが必要かどうかはわかりませんもしそうなら、どれがどれだけ正確に行くのか。私は 'build/mvn'と 'build/sbt'を使ってgithubソースを直接コンパイルしようとしましたが、 'spark-assembly_2.11-2.0.2.jar'ファイルはわずか283バイトです。
私の目標は、hereと同様の方法で、新しいバージョンのfat jarを使ってpysparkシェルを実行することです。遠くjarファイルを作成するスパークバージョン2.0.0から
明確にするために、私はgithubからspark 2.0.2 zipをダウンロードし、mavenを使ってコンパイルし、 'target/scala-2.11/jars'のすべてのJARをhdfsディレクトリに置くべきです。次に、** Spark 1.xディレクトリのspark-defaults.conf **をこのhdfsディレクトリに変更し、そこからpysparkを実行しますか?または、この2.xはマスターのローカルディレクトリにあり、confがhdfsディレクトリを指すように更新する必要がありますか?後者の場合、追加のセットアップ/設定が必要でしょうか?ありがとう! – noobman
sparkをダウンロードした後、実行可能なディストリビューションにビルドします(http://spark.apache.org/docs/latest/building-spark.html#building-a-runnable-distribution)。次に、結果の 'tgz'ファイルをマスタにコピーし、それを独自のディレクトリに展開します(spark1とは独立しています)。x)を開き、jarファイル(解凍されたtgzから)をHDFSにコピーします。次に、configを変更し、すべてのスパークディストリビューションの設定を区切ります。 – Mariusz
'./dev/make-distribution.sh --name custom-spark-tgz -Phadoop-2.7 -Phive -Phive-thriftserver -Pyarn'をディレクトリに実行しました後に 'dist /'ディレクトリを持たずにかなり長い[シェル出力](http://pastebin.com/McH86bwE)を得ました。 – noobman