Spark 1.6.1とScala 2.10を使用してScalaで書かれたGraphXを使用してデータセットを結合およびリンクするコードを作成しました。Spark GraphX spark-shellとspark-submitパフォーマンスの差異
このコードをspark-shellで実行すると、30分で10人のエグゼキュータ、10gのメモリで完了します&実行者あたり5 cpu。
私たちがspark-submitを使ってfat jarで実行すると、プロセスはメモリ不足のエラーで失敗し、そのポイントに到達するのに1時間半かかります。
これを引き起こしている可能性のあるアイデアは誰にもありますか?
SparkContextとSQLContextがシェル内でどのように設定されているか知っていますか?spark-submitで問題が発生している可能性がある独自のコンテキストを設定していない場合は、
設定が同一であることを確認しました。スパーク送信にシェルよりも多くのリソースを提供しても、それでも問題が発生します。また、データが歪んでいる場合は、シェルに影響し、同じ方法で送信する必要がありますか? –
@AndyLong Spark Web UIでパラメータの値を確認できますか? –
一部の設定がオーバーライドされている可能性があります。そのため、Web UIから情報を確認したい –