2017-09-20 4 views
3

AWSの新しいETLツールでnumpyやpandasなどのパッケージを「接着剤」と呼ぶのが最も簡単な方法は何ですか? Pythonで完成したスクリプトをAWS Glueで実行したいと思います。これはnumpyとpandasを利用しています。AWS Glue Python

答えて

1

ジョブを編集する場合(または新しいジョブを作成する場合)、省略可能なセクションが「スクリプトライブラリとジョブパラメータ(オプション)」と表示されます。そこには、Pythonライブラリ用のS3バケットを指定することができます(他にもあります)。私はまだその部分について自分自身でそれを試していないが、それはあなたが探しているものだと思う。

+0

含めるモジュールが多数ある場合は、それらを1つのZIPファイルにアーカイブし、「スクリプトライブラリとジョブパラメータ」パラメータに付加することができます。あなたのモジュールは、実行中のジョブで利用できるようになります。 –

1

ボタンをクリックして実行ジョブをクリックすると、デフォルトで折りたたまれているジョブパラメータ(オプション)をクリックすると、ライブラリをs3に保存するために使用できる次のオプションがあります。

のPythonライブラリのパス

S3://バケット名/フォルダ名/ファイル名

依存するjarパス

S3://バケット名/フォルダ名/ファイル-name

参照ファイルパス S3://バケット名/フォルダ名/ファイル名

4

私は、現在の答えはあなたができないだと思います。 AWS Glue Documentation

純粋なPythonライブラリのみが使用できます。 pandas Python Data Analysis Libraryなど、Cの拡張機能に依存するライブラリはまだサポートされていません。

しかし、通常のPythonで書かれたライブラリをS3に組み込もうとしても、HDFSのアクセス許可の問題が原因でGlueジョブが失敗しました。あなたがこれを解決する方法を見つけたら、私にも教えてください。