2017-07-03 13 views
1

私はScalaで作成したudfsを、データ科学者がEMRクラスタのpysparkとjupyterで使用する他のクラスタと共有したいと考えています。EMRクラスタのJupyterノートブックでカスタムユーザ定義関数を使用するにはどうすればよいですか?

これは可能ですか?どうやって?確かに

+0

が重複する可能性を動作するはずです役立ちます(https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark) – zeapo

+0

@zeapo Jupyterでこのような機能を提供するEMRクラスターを介してUDFを共有する方法については、 。スパークスリフトサーバーで共有される「SparkSession」を使用しない限り、直接*スパークでは不可能です。 –

+0

いつも再作成するのではなく、既存の関数を共有してスパークカタログに追加できるようにしたいからです。 –

答えて

0

this answer

は、それがローカルのjarファイルフォルダを刺激するために、S3からのブートストラップアクションのCoPtに、S3に入れユーバーjarを作成し、それが[PySparkでスカラUDFを使用する]の

関連する問題