私はPythonのAirflowライブラリを使用しようとしています。私はそれが定期的にWebページをこすりたい。PythonのAirflowでは、一定時間後にタスクが実行されないようにするにはどうすればいいですか?
start_date
が数日前の場合、私がスケジューラを起動すると、start_date
から今日までバックフィルされるという問題があります。例:
今日は月の20日を想定しています。
start_date
が今月の15日であるとします。
20日にスケジューラを起動すると、20日に5回ページが削られます。 DAGインスタンスが15日に実行され、20日にそのDAGインスタンス(15日のインスタンス)が実行されることがわかります。そして、それは20日にDAGインスタンスを実行します。
要するに、気流は「追いつく」ことを試みますが、これはウェブスクレーピングには意味がありません。
エアフローでDAGインスタンスが一定時間後に失敗したと見なす方法はありますか?
これは数ヶ月前に新しい「LatestOnlyOperator」(http://stackoverflow.com/a/40578704/596167にあります)としてAirflowに追加されたようです。 #1155を発行するための –