EMRクラスタのJupyterノートブックでカスタムユーザ定義関数を使用するにはどうすればよいですか？

私はScalaで作成したudfsを、データ科学者がEMRクラスタのpysparkとjupyterで使用する他のクラスタと共有したいと考えています。EMRクラスタのJupyterノートブックでカスタムユーザ定義関数を使用するにはどうすればよいですか？

これは可能ですか？どうやって？確かに

2017-07-03 Lior Baber

が重複する可能性を動作するはずです役立ちます（https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark） – zeapo

@zeapo Jupyterでこのような機能を提供するEMRクラスターを介してUDFを共有する方法については、。スパークスリフトサーバーで共有される「SparkSession」を使用しない限り、直接*スパークでは不可能です。 –

いつも再作成するのではなく、既存の関数を共有してスパークカタログに追加できるようにしたいからです。 –

は、それがローカルのjarファイルフォルダを刺激するために、S3からのブートストラップアクションのCoPtに、S3に入れユーバーjarを作成し、それが[PySparkでスカラUDFを使用する]の

2017-07-03 10:06:46

答えて