data-pipeline

    0

    1答えて

    気流DAGの設定/スケジュールの方法は、基準が満たされてから、両方の時刻を同時に実行するのではなく、正確な時刻に1日2回実行する方法を検討しています。 真夜中と午後9時に同じタスクを実行します。 cron〜schedule_intervalを0 0,21 * * *のように追加して、真夜中と午後9時に毎日実行します。しかし今日(4月27日)の実行は昨日(4月26日)の00:00:00から開始され、

    0

    1答えて

    hadoopでデータパイプラインを作成する必要があります。私は、データのインポート、エクスポート、データを整理するためのスクリプトを用意しており、これをパイプラインで設定する必要があります。 私はOozieをデータのインポートとエクスポートのスケジュールに使用していましたが、データクリーニングプロセスのためにRスクリプトを統合する必要があります。 私はファルコンが同じもののために使用されるのを見ま

    0

    2答えて

    私はAzure BLOBストレージにたくさんのファイルを持っており、新しいファイルを絶えず入手しています。 Blobのすべてのデータを最初に取り出し、BigQueryに移動してスクリプトやジョブを実行して、そこにあるすべての新しいデータがBigQueryに送られるようにする方法があるかどうかは疑問でした。

    0

    1答えて

    私は気流を学んでおり、簡単な質問があります。以下は私のDAGは、空気の流れをテストする手段としてdog_retriever import airflow from airflow import DAG from airflow.operators.http_operator import SimpleHttpOperator from airflow.operators.sensors im

    1

    1答えて

    私はデータパイプラインとサーバーレスの両方を初めて使用しています。私はserverlessを使用してAWSデータパイプラインを自動化する方法を知りたいと思います。以下は、私はこのためにサーバレスの枠組みに正しい選択を使用してわからないんだけどS3

    1

    1答えて

    S3からデータをプルして、それをDynamoDBにプッシュするデータパイプラインを作成しました。 パイプラインがを正常に実行し始めました。。 書き込み容量を20000単位に設定しましたが、数時間後に書き込みが半減しましたが、現在は書き込み容量は3単位です。 (書き込み容量は変更されませんでした。パイプラインは3台に減少し、このレートで動作し続け、しきい値で開始) 減少の理由で何ができますか?それを