1

は、私はHDFSの場所にフォルダを持っているし、毎日1つのファイルがdate.txt(:20160802.txt式)の形式でそのフォルダに追加するフォルダ、すなわち特定のフォルダに変更があった場合、OOZIEジョブをスケジュールする方法はありますか?

に基づいてoozieジョブをスケジュールします。

新しいファイルがそのフォルダに追加されている場合、OOZIEバッチのスケジュールを設定します。

私のユースケースのシナリオではどのようにスケジュールすることができますか?

ありがとうございます。

答えて

1

Oozieワークフロージョブは、一定の時間間隔および/またはデータの可用性に基づいて実行されます。また、場合によっては、外部イベントによってトリガーされることもあります。コーディネーターがここに出場します。

あなたは、データの依存関係をチェックして、あなたのケースでは、あなたのファイルはあなたが達成することができ、データセットでtimestamp.SoとHDFSに追加取得された毎日をコーディネーターEL functions とoozieワークフローをトリガするためにoozieコーディネーターを使用することができます。ドキュメントから

0時15 PST8PDTに一度毎日生産され、行われ、フラグが空に設定されたデータセットは:

<dataset name="logs" frequency="${coord:days(1)}" 
      initial-instance="2009-02-15T08:15Z" timezone="America/Los_Angeles"> 
    <uri-template> 
     hdfs://foo:9000/app/logs/${market}/${YEAR}${MONTH}/${DAY}/data 
    </uri-template> 
    <done-flag></done-flag> 
    </dataset> 
The dataset would resolve to the following URIs and Coordinator looks for the existence of the directory itself: 

    [market] will be replaced with user given property. hdfs://foo:9000/usr/app/[market]/2009/02/15/data 
    hdfs://foo:9000/usr/app/[market]/2009/02/16/data 
    hdfs://foo:9000/usr/app/[market]/2009/02/17/data 

ドキュメント多くの例をお読みください良いところがあります。

1. About Coordinators

2. DataSet

関連する問題