IMDBレビューを削る方法

データ収集から開始して、感情分析でプロジェクトを終了したい。そのために、私は特に、このページから、IMDBのレビューを始めている：IMDBレビューを削る方法

http://www.imdb.com/title/tt2137109/reviews?start=0

私は次のコードから、私がレビューしてタイトルを取得することができ、このためscrapyを使用することがあります：

import requests 
from scrapy.http import TextResponse 
import urlparse 
from urlparse import urljoin 

base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0" 
r = requests.get(base_url) 

response = TextResponse(r.url, body=r.text, encoding='utf-8') 

title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0] 

reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()

私が持っている問題は、サンプルをランダムに取得するためにサイトをクロールする方法です。私はサイトに不必要な打撃を避けるために5〜10日で取得する予定の10kタイトルのサンプルを探しています。

トップ250のようないくつかの出発点がありますlist：しかし、私は無作為のサンプルを探しています。

出典

2017-06-16 Luis Ramon Ramirez Rodriguez

1）なぜあなたは治療を使用する場合、リクエストを使用するのですか？

2）は、リンクを抽出し、私はノートPC上のXPathをしようとしているので、私は、要求を使用していたランダムサンプル

出典

2017-06-16 06:39:10 Verz1Lka

1）のためのランダム関数を使用します。どこからランダムサンプルを取ることができますか？私はリストを持っていません。 –

答えて

関連する問題