AWSの新しいETLツールでnumpyやpandasなどのパッケージを「接着剤」と呼ぶのが最も簡単な方法は何ですか? Pythonで完成したスクリプトをAWS Glueで実行したいと思います。これはnumpyとpandasを利用しています。AWS Glue Python
3
A
答えて
1
ジョブを編集する場合(または新しいジョブを作成する場合)、省略可能なセクションが「スクリプトライブラリとジョブパラメータ(オプション)」と表示されます。そこには、Pythonライブラリ用のS3バケットを指定することができます(他にもあります)。私はまだその部分について自分自身でそれを試していないが、それはあなたが探しているものだと思う。
1
ボタンをクリックして実行ジョブをクリックすると、デフォルトで折りたたまれているジョブパラメータ(オプション)をクリックすると、ライブラリをs3に保存するために使用できる次のオプションがあります。
のPythonライブラリのパス
S3://バケット名/フォルダ名/ファイル名
依存するjarパス
S3://バケット名/フォルダ名/ファイル-name
参照ファイルパス S3://バケット名/フォルダ名/ファイル名
4
私は、現在の答えはあなたができないだと思います。 AWS Glue Documentation:
純粋なPythonライブラリのみが使用できます。 pandas Python Data Analysis Libraryなど、Cの拡張機能に依存するライブラリはまだサポートされていません。
しかし、通常のPythonで書かれたライブラリをS3に組み込もうとしても、HDFSのアクセス許可の問題が原因でGlueジョブが失敗しました。あなたがこれを解決する方法を見つけたら、私にも教えてください。
含めるモジュールが多数ある場合は、それらを1つのZIPファイルにアーカイブし、「スクリプトライブラリとジョブパラメータ」パラメータに付加することができます。あなたのモジュールは、実行中のジョブで利用できるようになります。 –