python-scrapy：スパイダーの内部でURLを取得するにはどうすればいいですか？

HtmlXPathSelector経由でページから何かを抽出するためにURLを取得する何かの中に私のスパイダーを入れるにはどうすればいいですか？しかし、URLは、コード内の文字列として提供するものであり、後続するリンクではありません。python-scrapy：スパイダーの内部でURLを取得するにはどうすればいいですか？

私はこのような何か試してみました：=

[Failure instance: Traceback: <type 'exceptions.AttributeError'>: addinfourl instance has no attribute 'encoding'

出典

2011-01-09 miernik

あなたは、本体とscrapy.http.HtmlResponseオブジェクトを作成する必要があります。

req = urllib2.Request('http://www.example.com/' + some_string + '/') 
req.add_header('User-Agent', 'Mozilla/5.0') 
response = urllib2.urlopen(req) 
hxs = HtmlXPathSelector(response)

をしかし、現時点ではそれがで例外がスローされますurllib2.urlopen（req）.read（） - しかし、なぜあなたはコールバックでリクエストを返すのではなく、urllib2を使う必要がありますか？

出典

2011-01-12 03:04:21

私はスクラップしているページのどこにもリンクされていないURLに「コールバックでリクエストする」方法を知らない。私はちょうど私が文字列で提供するURLを照会したいと思っています。 – miernik

ありがとう、しかし、今私はHtmlXPathSelectorで動作させることができなかったので、BeautifulSoupでURLを解析してしまいました。 – miernik

治療はunittestを行う方法を明示的に示していませんが、各スパイダーのunittestを実行する場合は、データをクロールするためにscrapyを使用することはお勧めしません。

出典

2015-06-16 06:41:29

python-scrapy：スパイダーの内部でURLを取得するにはどうすればいいですか？

答えて

関連する問題