S3にファイルをアップロードしてからEMRで処理し、最後にRedshiftに転送

このフォーラムと技術では新しく、アドバイスを求めています。私はPOCに取り組んでおり、以下は私の必要条件です。結果を達成する方法を教えてください。S3にファイルをアップロードしてからEMRで処理し、最後にRedshiftに転送

NASからS3にデータをコピーします。
ターゲットをS3 /レッドシフトに設定したEMRジョブで、S3をソースとして使用します。

任意のリンク、pdfも役立ちます。

おかげで、 Pardeep

出典

2017-05-09 user3046492

それは多くのあなたが求めていることをここにありますので、私は私の答えに非常に一般的なことするつもりで行くためにあなたのユースケースについての情報がたくさんあるではないですし、うまくいけば少なくともあなたは正しい方向を指しています。

ラムダを使用してNASからS3にデータをコピーできます。 NASが構内にあり、VPCへのVPN、またはダイレクトコネクトが設定されていることを前提とすると、VPC対応のラムダ機能を使用してNASから読み込み、S3に書き込むことができます。

NASがEC2上で動作している場合は、VPNまたはダイレクトコネクトを必要としない点を除いて、上記は変わりません。

ラムダからEMRジョブを開始する予定ですか？ S3をEMRのソースとして使用して、ラムダ内から、または他の手段を介してS3に出力することができます。

あなたのユースケースに関する詳細情報を提供できる場合は、おそらくより良い品質の回答を与えることができます。

出典

2017-05-09 11:02:48 alanwill

@alanwill、以下のおかげで、他の詳細です。 1.はい、私の最初の使用例は、敷地内のNASからデータを引き出し、次に資格情報を使用して共有されている第三者の公開場所からデータを取得します。 2.ラムダを使用していますが、他にキックEMRの仕事がある場合はお知らせください。 EMR（Spark SQL）を介してRedshitに直接データを書き込む方法はありますか？または結果をS3にコピーしてから、Lambdaを通じてRedshiftにロードする必要があります。 – user3046492

はい、EMRからRedshiftに直接データを書き込むことができます。http://docs.aws.amazon.com/redshift/latest/dg/loading-data-from-emr.htmlのdocリンクがあります。ラムダのパイプライン全体を自動化してジョブを作成して実行することもできます。もしPythonを使用しているなら、boto3 SDK https://boto3.readthedocs.io/en/latest/reference/services/emr.htmlを使うことができます – alanwill

NASからS3へデータをコピーします。

実際にコピージョブを実行するデータ量と頻度によって異なります。 GB単位のデータであれば、NFSが接続されているマシンにAWS CLIをインストールできます。 CPのようなAWS CLIコマンドはマルチスレッド化でき、データセットをS3に簡単にコピーできます。また、S3転送アクセラレーションを有効にして処理を高速化することもできます。 AWS Directを社内ネットワークに接続することで、オンプレミスからAWSへの転送を高速化することもできます。

http://docs.aws.amazon.com/cli/latest/topic/s3-config.html

http://docs.aws.amazon.com/AmazonS3/latest/dev/transfer-acceleration.html

https://aws.amazon.com/directconnect/

データは（おそらく複数のボリュームに分散されている）のTBである場合は、AWS雪玉、AWSImportExportのような物理的な転送ユーティリティを使用することを検討する必要がある場合がありますまたはAWSスノーモービルを使用することができます。

https://aws.amazon.com/cloud-data-migration/

使用S3 S3 /赤方偏移に標的とEMRジョブでソースとして。

また、EMRには多くのアプリケーションがあるので、多くの選択肢があります。Redshiftは、アプリケーションが使用できるS3へのCOPY/UNLOADコマンドをサポートしています。 EMRでSPARKを使用する場合は、spark-redshiftドライバーをインストールすることが可能です。

https://github.com/databricks/spark-redshift

https://databricks.com/blog/2015/10/19/introducing-redshift-data-source-for-spark.html

https://aws.amazon.com/blogs/big-data/powering-amazon-redshift-analytics-with-apache-spark-and-amazon-machine-learning/

出典

2017-05-09 16:08:56