0
データ収集から開始して、感情分析でプロジェクトを終了したい。そのために、私は特に、このページから、IMDBのレビューを始めている:IMDBレビューを削る方法
http://www.imdb.com/title/tt2137109/reviews?start=0
私は次のコードから、私がレビューしてタイトルを取得することができ、このためscrapyを使用することがあります:
import requests
from scrapy.http import TextResponse
import urlparse
from urlparse import urljoin
base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0"
r = requests.get(base_url)
response = TextResponse(r.url, body=r.text, encoding='utf-8')
title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0]
reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()
私が持っている問題は、サンプルをランダムに取得するためにサイトをクロールする方法です。 私はサイトに不必要な打撃を避けるために5〜10日で取得する予定の10kタイトルのサンプルを探しています。
トップ250のようないくつかの出発点がありますlist: しかし、私は無作為のサンプルを探しています。
1)のためのランダム関数を使用します。どこからランダムサンプルを取ることができますか?私はリストを持っていません。 –