0

背景アマゾンキネシス解析

しかし、Amazon Kinesis AnalyticsをS3バケット内の膨大な量のExsistingデータに使用できるかどうかについて、私はジレンマに陥っています。

オーサリングアプリケーションコード

私たちは次のことをお勧めします。

:あなたのSQL文で

•を、私たちは、あなたが長い一時間よりも、次の理由からである時間ウィンドウを指定しないことをお勧めします

  1. アプリケーションを更新したか、またはAmazon Kinesis Analyticsの内部的な理由により、アプリケーションを再起動する必要がある場合、ウィンドウに含まれるすべてのデータをストリーミングデータソースから再度読み取る必要があります。 Amazon Kinesis Analyticsがそのウィンドウの出力を出すまでには時間がかかります。
  2. アプリケーションを更新したか、またはAmazon Kinesis Analyticsの内部的な理由により、アプリケーションを再起動する必要がある場合、ウィンドウに含まれるすべてのデータをストリーミングデータソースから再度読み取る必要があります。 Amazon Kinesis Analyticsがそのウィンドウの出力を出すまでには時間がかかります。
  3. Amazon Kinesis Analyticsは、関連するデータを含め、アプリケーションの状態に関連するすべてをその期間維持する必要があります。これにより、重要なAmazon Kinesis Analytics処理ユニットが消費されます。

クエリ

アマゾンキネシスAnalyticsはこの作業のために良いだろうかどうか任意の考え、。

答えて

1

Amazon Kinesis Analyticsの主な使用例はストリームデータ処理です​​。このため、Amazon Kinesis Analyticsアプリケーションをストリーミングデータソースに添付します。必要に応じてS3からの参照データを含めることができますが、現在のところサイズが1 GBに制限されています。私たちは、S3オブジェクトからのデータをSQLテーブルにロードします.SQLテーブルは、受信ストリームを充実させるために使用できます。

ストリームデータ処理ソリューションではなく、S3からのデータをクエリするためのより汎用的なツールが必要なように思えます。 Amazon Kinesis Analyticsを使用する代わりにPrestoとAmazon EMRを見ることをお勧めします。

免責事項:私はAmazon Kinesisチームで働いています。

+0

Amazon Athenaは2016年11月に発売されたので、私もそれを見ていきます:https://aws.amazon.com/athena/ – RyanN