DynamoDBに格納されている毎日のログテーブル(毎日約10mの入力)があります。AWS:dynamodbからredshiftへのデータ変換
分析を行うには、Redshiftに転送する必要があります。さらに、文字列(nvarchar(250))を解析することで、既存の列から新しい列を作成する必要があります。私の考えは、COPYコマンドを使用してDynamoDBからRedshiftにデータを転送し、UDFを使用して新しい列を作成することでした。
このアプローチの問題は、(両方の部分)を完了するのに多くの時間がかかり、失敗し続けることです(問合せの状態が悪化します):1つのコピーコマンドで約10日間のデータを転送しています。
データパイプラインやEMRのようなアマゾンサービスを使用する方が良いと思いますか?同じことをやっているのですが、組織は違っていますか?
ありがとうございました! 1つの質問:データパイプラインを使用してダイナモブロックからs3にデータを転送するとき、またはデータを最初に転送してから変換(赤方偏移)する必要があると思いますか? –
データパイプラインはこの機能をサポートしていません。なぜあなたは必要なデータでs3ファイルを書くことができませんか?あなたはdynamo dbからそれをしたい場合。 awsグルーのために行くか、ラムダのダイナモdbストリームラッパーとプロセスレコードを使用してs3に書き込みます(しかし、私はこのソリューションを長期的/コスト/パフォーマンスの要素で強く反対します) –
私が見た限り、awsグルーそれだけでなく)は、私たち東(n。バージニア)と私のデータは、他の地域にある1つの地域で利用可能です... –