2017-06-16 16 views
0

データ収集から開始して、感情分析でプロジェクトを終了したい。そのために、私は特に、このページから、IMDBのレビューを始めている:IMDBレビューを削る方法

http://www.imdb.com/title/tt2137109/reviews?start=0

私は次のコードから、私がレビューしてタイトルを取得することができ、このためscrapyを使用することがあります:

import requests 
from scrapy.http import TextResponse 
import urlparse 
from urlparse import urljoin 

base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0" 
r = requests.get(base_url) 

response = TextResponse(r.url, body=r.text, encoding='utf-8') 

title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0] 

reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract() 

私が持っている問題は、サンプルをランダムに取得するためにサイトをクロールする方法です。 私はサイトに不必要な打撃を避けるために5〜10日で取得する予定の10kタイトルのサンプルを探しています。

トップ250のようないくつかの出発点がありますlist: しかし、私は無作為のサンプルを探しています。

答えて

1

1)なぜあなたは治療を使用する場合、リクエストを使用するのですか?

2)は、リンクを抽出し、私はノートPC上のXPathをしようとしているので、私は、要求を使用していたランダムサンプル

+0

1)のためのランダム関数を使用します。どこからランダムサンプルを取ることができますか?私はリストを持っていません。 –

関連する問題