EFSマウントファイルでETLジョブを実行できるかどうかを知りたい場合 どうすればよいですか?それはHiveやその他のサービスを使用していますか? 1つのマウントポイント内のすべてのファイルを1つのファイルに縮小し、その1つのファイルをs3に格納して処理します。AWS EFSでETLジョブを実行できます
答えて
EFS自体には固有のデータウェアハウス製品が含まれていません。データウェアハウジングとETLの場合、AWS環境で動作する使用するものを選択することができます。
オンに問題があります: 正しく理解すれば、現在EFSマウント内にあるすべてのファイルを1つのファイルに連結したり、何らかの形で結合してS3に格納したりしたいとします。
あなたはどのような種類のデータを持っているのか、どの種類のファイルを結合したいのかは言及していません。それはあなたがこれをやる方法に大きな違いをもたらします。だから私は一般的な提案をしなければならないでしょう。異なる種類のデータがある場合、異なるデータベース、ドキュメント、非SQLデータからのSQLテーブル。そのデータをどのように組み合わせるかを決定する必要があります。そのためには、生データに対応できるデータ統合ソリューションを検討する必要があります。
Amazonには、Redshift、Athena、Snowflake、ETLソリューションの接着剤などのプロセスを支援するいくつかの製品があります。製品を追加することは、企業のニーズと予算によって異なります。
したがって、より柔軟なデータ統合アプローチは、ETLの代わりにELT(抽出、ロード、変換)を使用することです。基本的には、S3インスタンス上に適切なファイルを作成します。次に、EFS上の各ファイルを一度に1つずつ抽出してS3ファイルにロードします。 S3ファイルのデータをクエリすると、クエリ結果を見る前に必要な変換が実行されます。相違点を詳しく説明した記事はhttps://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-howです。
Talend、Hadoop/Hive/Spark、Terradata、InformaticaなどのELTプロセスをサポートしているベンダーがあり、オプションの調査が必要な場合があります。
- 1. スパークETLジョブは一度だけmysqlを実行します
- 2. ETLツール間でのETLジョブへの移行
- 3. AWSからS3へのAWS Glue ETLジョブが失敗する
- 4. AWS自動スケーリンググループ&EFS
- 5. AWS EFSのウェブサイトをホスティング
- 6. Magento cronジョブがAWSインスタンスで実行されていません
- 7. Windows Server 2012のAWS EFS
- 8. タイムベースでジョブを実行できるサービス
- 9. AWS Glueの単純なETLジョブで「ファイルがすでに存在しています」と表示されます
- 10. informatica powercenterとカスタムperl ETLジョブ?
- 11. ローカルクラスタのようにEMR上でジョブを実行できますか?
- 12. Amazon Lightailインスタンスでcronジョブを実行できますか?
- 13. マスタージェンキンはリモートジェンキンでジョブを実行できますか?
- 14. hangfireでtalendジョブを実行できますか
- 15. OutputTagsでジョブを実行することができません
- 16. UIスレッドでquartz.netジョブを実行できますか?
- 17. 特定のワーカーリストでdask/distributedジョブを実行できますか
- 18. AWS Glue ETLジョブは、AnalysisExceptionで失敗します。u'Unableで、Parquetのスキーマを推論できます。手動で指定する必要があります;; '
- 19. EJB ETLのNoClassDefFoundError:org.apache.poi.util.SAXHelper実行
- 20. AWS EFS MongoDBレプリカセットを使用したエラスティックファイルシステム
- 21. データパイプラインを使用したAWS EFSバックアップ
- 22. Laravelはペイロードに「ジョブ」プロパティを持たないジョブを実行できますか?
- 23. ボタン "ジョブの実行"がロックされています - ジョブを実行できません
- 24. AWSのり:どのように価格設定に関するETLジョブの
- 25. バックグラウンドでジョブを実行
- 26. symfonyでcronジョブを実行
- 27. TezでHiveからMapReduceジョブを実行できません
- 28. oozieでsparkジョブを実行できません
- 29. PostgresqlのPgAgentでジョブを実行できません
- 30. は、HadoopでMapReduceジョブを実行できません。