0
が
2つのデータを考慮し、ボックスからログがS3バケットに転送されているS3バケットからのデータの一日の価値を比較する高速
1. Front End Box ----> S3 Bucket-1
2. Front End Box ----> Kafka --> Storm ---> S3 Bucket-2
下方に流れます。フロー1をフロー2に置き換える必要があります。
フロー2を使用できることを保証するために、データはBucket-1
とBucket-2
の間で検証する必要があります。
以下の技術オプションが試された:
1. Python : boto3 Apis
2. Qubole
限られたデータセットの両方の仕事は、quboleはPythonスクリプトよりもスケーラブルです。しかし、それを行うには非常に長い時間がかかります(終わらず、一晩中走った後に殺さなければなりませんでした)。我々はここで五十億のエントリを見ている。
クエリ
SELECT
count(*)
FROM
TableA LEFT OUTER JOIN TableB
ON TableA.id = TableB.id
WHERE
TableB.id IS NULL
AND TableA.id IS NOT NULL
質問
ツールのための任意の提案、この高速化を達成する方法?
参加を避ける方法はありますか?
「フロントエンドボックス」はどこにホストしていますか?あなたがAWSにいるなら、AWS Lamdaを調べることができます。 –
はい、AWSです。 Lamdaをご覧ください – Confused
AWS CloudWatchを使用してログを記録し、AWS Lambdaで検証を実行し、一時ファイルを作成して、 'python'でS3に移動することができます。 –