1

AWSデータレイクの取り組み(メタデータ/カタログ)をサポートするためにDynamo/ElasticSearchをどのように使用すべきかを理解するのは本当に苦労しています。 Dynamoのソース用のzipアーカイブの個々のS3ロケーションと、ESで検索する追加のメタデータ/属性を記録するように見えます。それが正しければ、どうやってそれをサポートするのでしょうか?私は2つのペアを適切にペアにする方法についてより詳細な情報を見つけようとしましたが、失敗しました。他の人が持っている情報やドキュメントはすばらしいでしょう。私はいくつかの明白な例/ドキュメンテーションを見過ごしている可能性があります。/AWS Data Lake DynamoとElasticSearch

  • ユーザーがメタデータを検索可能性があり、高レベルの一致S3バケット/パーティションに指すことになりESの属性:

    は私が想像していますと、次のようなものです。

  • DynamoDBの内の検索がES結果
  • からキー(パーティション/バケット)の一部に対して検索となり、その後、処理し、抽出することができ、多くの個々のオブジェクト/キーの中で最も可能性の高い結果だろう、など
+0

はい、そうだと思います。それぞれのサービスを最高のものに使用してください。 S3 - 信頼できる保管。 DynamoDB - パーティションキーの高速検索。 Elasticsearch - 高速で正確な検索機能。 3つのサービス全体で一意のID(uuid)を共有するだけで、レコードをリンクさせることができます。 –

答えて

0

私はAWSの担当者の一人と話をしてくれました。それは素晴らしい出発点でした。 AWS Data Lake。これは以前は私には分かりませんでしたが、コンポーネントとアプローチのユーザーについてのいくつかの質問に答えるように見えました。

ハイライト:データ湖を実装するための

  • 青写真。 S3/DynamoDB/ESの組み合わせは一般的です。
  • 実装には多くのバリエーションがあります。 ESだけを使用してES/DynamoDBにRDSを代入するなど
  • RDSを使用してプロセスを試してから、DyanmoDB/ESに移動するのが最も一般的です。
関連する問題