私は、npidb.orgからのプロバイダの名前を掻き集めるNPIのリストを持っています。 NPI値はcsvファイルに保存されています。詐欺を使用した値リストからウェブサイトをクロールする
コードにURLを貼り付けることで手動で行うことができます。しかし、NPIのリストがあれば、どのようにそれを行うのか分かりません。ここで
は私の現在のコードです:
import scrapy
from scrapy.spider import BaseSpider
class MySpider(BaseSpider):
name = "npidb"
def start_requests(self):
urls = [
'https://npidb.org/npi-lookup/?npi=1366425381',
'https://npidb.org/npi-lookup/?npi=1902873227',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = response.url.split("/")[-1]
filename = 'npidb-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)
コマンドラインからすべてのnpi値を提供したいですか?テキストファイル? – eLRuLL
NPIは、別のコードから派生したcsvファイルに格納されています。 –
csvファイルの構造は何ですか?各URLが1行に1つのエントリとして登録されていれば、open(file_name).read()。split()のように書いて、すべての行のリストを取得することができます。 –