2017-12-20 15 views
0

EFSマウントファイルでETLジョブを実行できるかどうかを知りたい場合 どうすればよいですか?それはHiveやその他のサービスを使用していますか? 1つのマウントポイント内のすべてのファイルを1つのファイルに縮小し、その1つのファイルをs3に格納して処理します。AWS EFSでETLジョブを実行できます

答えて

1

EFS自体には固有のデータウェアハウス製品が含まれていません。データウェアハウジングとETLの場合、AWS環境で動作する使用するものを選択することができます。

オンに問題があります: 正しく理解すれば、現在EFSマウント内にあるすべてのファイルを1つのファイルに連結したり、何らかの形で結合してS3に格納したりしたいとします。

あなたはどのような種類のデータを持っているのか、どの種類のファイルを結合したいのかは言及していません。それはあなたがこれをやる方法に大きな違いをもたらします。だから私は一般的な提案をしなければならないでしょう。異なる種類のデータがある場合、異なるデータベース、ドキュメント、非SQLデータからのSQLテーブル。そのデータをどのように組み合わせるかを決定する必要があります。そのためには、生データに対応できるデータ統合ソリューションを検討する必要があります。

Amazonには、Redshift、Athena、Snowflake、ETLソリューションの接着剤などのプロセスを支援するいくつかの製品があります。製品を追加することは、企業のニーズと予算によって異なります。

したがって、より柔軟なデータ統合アプローチは、ETLの代わりにELT(抽出、ロード、変換)を使用することです。基本的には、S3インスタンス上に適切なファイルを作成します。次に、EFS上の各ファイルを一度に1つずつ抽出してS3ファイルにロードします。 S3ファイルのデータをクエリすると、クエリ結果を見る前に必要な変換が実行されます。相違点を詳しく説明した記事はhttps://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-howです。

Talend、Hadoop/Hive/Spark、Terradata、InformaticaなどのELTプロセスをサポートしているベンダーがあり、オプションの調査が必要な場合があります。

関連する問題