私は、Scrapy(CSV)でExcelにファイルを自動化して書き込む方法を探していました。私はより多く集め、「行」形式にこれらのそれぞれをフォーマットすることができるようにしたい治療|オートメーションとExcelへの書き込み
scrapy crawl myscript -o myscript.csv -t csv
:そしてこれまでのところ、唯一なんとかコマンドが面倒なの、手動の方法です。さらに、スクレーパーを自動化する方法はありますか?理想的には、コードを1日に1回実行したいと思っています。自分の掻き取りに関する更新があったときに自分自身に通知できるようにしたいのです。関連する投稿が更新されています。
私のクモが働いている、とここでのコードは次のとおりです。
import scrapy
from scrapy.spiders import XMLFeedSpider
from YahooScrape.items import YahooScrapeItem
class Spider(XMLFeedSpider):
name = "Test"
allowed_domains = ["yahoo.com"]
start_urls = ('https://feeds.finance.yahoo.com/rss/2.0/headline?s=GOOGL',)
itertag = 'item'
def parse_node(self, response, node):
item = {}
item['title'] = node.xpath('title/text()',).extract_first()
item['pubDate'] = node.xpath('link/pubDate/text()').extract_first()
item['link'] = node.xpath('link/text()').extract_first()
item['description'] = node.xpath('description/text()').extract_first()
return item
私はさらに輸出に/私のスクレーパーを整理することを認識しています、私は、少なくともの大多数に応じて(パイプラインの設定を編集する必要が私が読んだ記事)。以下は
は私pipelines.pyコードです:
class YahooscrapePipeline(object):
def process_item(self, item, spider):
return item
私は、コードを実行することができ、それが自動的にコードを記述しますので、私はそれを設定することができますどのように?
更新日:私はスパイダーをホストするためにshub-moduleで実行されるScrapingHubs APIを使用しています。それは非常に便利で使いやすくなっています。
settings.pyでパイプラインを有効にして使用することができます。また、開始CSVフィードエクスポーター – Verz1Lka