1
私はScalaで作成したudfsを、データ科学者がEMRクラスタのpysparkとjupyterで使用する他のクラスタと共有したいと考えています。EMRクラスタのJupyterノートブックでカスタムユーザ定義関数を使用するにはどうすればよいですか?
これは可能ですか?どうやって?確かに
私はScalaで作成したudfsを、データ科学者がEMRクラスタのpysparkとjupyterで使用する他のクラスタと共有したいと考えています。EMRクラスタのJupyterノートブックでカスタムユーザ定義関数を使用するにはどうすればよいですか?
これは可能ですか?どうやって?確かに
は、それがローカルのjarファイルフォルダを刺激するために、S3からのブートストラップアクションのCoPtに、S3に入れユーバーjarを作成し、それが[PySparkでスカラUDFを使用する]の
が重複する可能性を動作するはずです役立ちます(https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark) – zeapo
@zeapo Jupyterでこのような機能を提供するEMRクラスターを介してUDFを共有する方法については、 。スパークスリフトサーバーで共有される「SparkSession」を使用しない限り、直接*スパークでは不可能です。 –
いつも再作成するのではなく、既存の関数を共有してスパークカタログに追加できるようにしたいからです。 –