0

私はこの後guideに従って、リアルタイムWebトラフィックデータをS3にロードし、ラムダをESドメインインデックスにロードするように設定します。現在、各レコードについて、この{GUID} .jsonという名前のS3バケットに新しい行番号のjsonファイルを作成します。このファイルには1行しか含まれていません。例えば:これはライブ行くときAWS ElasticSearchストリーミングデータを読み込み

{"email":"[email protected]","firstname":"Hello","lastname":"World"} 

だから、それはラムダ関数を経由してESにプッシュされますその後、S3バケットにJSONファイルの何百万人をアップロードします。これは、ストリーミングデータを読み込む正しいアプローチですか?または、1時間ごとに複数のレコードを集計する予定のプロセスを開発する必要がありますか?たとえば、jsonファイルあたり10kレコードがS3バケットにアップロードされますか?私はそれが技術的に「リアルタイムストリーミング」ではないと感じています。

提案がありますか?

答えて

1

AWS Kinesis Firehoseを使用してストリーミングデータをElasticSearchに読み込もうとしましたか?

参考:https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

それはあなたの側での努力の必要性のほとんどを奪うでしょう。

+0

ご挨拶。 [Take a tour](http://stackoverflow.com/tour)と[あなたの答えは別の城にあります:回答が答えではないとき](http://meta.stackexchange.com/questions/225370)をチェックしてください。 )なぜリンクオンリーの回答が答えでないのかを理解する。マイナーな編集であなたの答えを改善することができます。どうも。 – Drew

関連する問題