ダウンロードする500のリンクがあり、たとえば10個のアイテムをバッチしたいと思います。luigiバッチモジュールで使用されているストレートバッチタスク
この疑似コードはどのようになりますか?
class BatchJobTask(luigi.Task)
items = luigi.Parameter()
def run(self):
listURLs = []
with ('urls_chunk', 'r') as urls
for line in urls:
listURLs.append('http://ggg'+line+'.org')
10_urls = listURLs[0:items] #10 items here
for i in 10_urls:
req = request.get(url)
req.contents
def output(self):
return self.LocalTarger("downloaded_filelist.txt")
class BatchWorker(luigi.Task)
def run(self)
# Here I should run BatchJobTask from 0 to 10, next 11 - 21 new etc...
どのようになりますか?
あなたのURLのリストはどこですか? – MattMcKnight
私は最初の投稿 – GarfieldCat
を更新しました。このURLのリストはどこに保存されていましたか?キュー内、データベース内、ファイル内?あなたがしなければならないことは、その中に何人がいるのかを把握し、そこからあなたのチャンクを構築することです。以下に例を示しますが、問題の関連部分を指定していないため、問題に関連する可能性は低いです。 – MattMcKnight