2017-03-15 2 views
1

クランチパイプラインはパラメータとしてJavaスパークコンテキストを持つことができますが、スパークアプリケーションはSparkSessionインスタンスで開始します(スパークJavaプログラムにはデータセットが含まれ、sparkSQLが必要です)。このような場合、sparkアプリケーションに別の抽象レイヤー(クランチパイプライン)を追加するにはどうすればよいですか?SparkSessionインスタンスから始まるスパークアプリケーションをリンクするリンククランチスパークパイプライン

答えて

0

あなたはおそらく概念の誤解を持っています。クランチでのスパークパイプラインは基本的に、MapReduceエンジンの代わりにスパークエンジンであなたのコードを実行させるためのものです。 Apache Crunch(PCollections)の抽象化は、MapReduceジョブとSparkパイプラインに比べて高いレベルの抽象化です。

関連する問題