以下のスクリプトを使用して、imdbからムービーのレビューと評価を抽出しています。scrapyから返されたリストをPythonのデータフレームに変換する方法
from scrapy.spiders import Spider
from scrapy.selector import Selector
from imdb.items import ImdbItem
class ImdbSpider(Spider):
name = "imdb"
allowed_domains = ["imdb.com"]
start_urls = [
"http://www.imdb.com/title/tt0068646/reviews?ref_=%20best",
]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[contains(@id,"tn15content")]/p')
ratings = sel.xpath('//div[contains(@id,"tn15content")]/div/img')
items = []
for site in sites:
item = ImdbItem()
item['review'] = site.xpath('text()').extract_first()
items.append(item)
for rating in ratings:
item = ImdbItem()
item['rating'] = rating.xpath('@alt').extract_first()
items.append(item)
return items
しかし、これは私がパンダDATAFRAME object.Is内のすべてのデータを入れて探しています.But初めにレビューして、評価を(それがリストであるとして、それがあるべきように)持っているリストを返します。そこには私が蜘蛛の蜘蛛の中からそれをやり遂げることができる方法はありますか?誰かが親切にこれについて私を助けることができますか?
私が望む結果はイメージの最初の部分にあり、私が得るのはイメージの2番目の部分です。注:これは私が表示している1つのレビューのためです。
私たちが望む情報で作成されたDataFrameオブジェクトの例とその例はありますか? – eLRuLL
私はもう一度 - 返されたデータのサンプルと 'pd.DataFrame'がどのように見えるかの例を参考にします。 – nlsdfnbch
その後、そのデータフレームで何をしたいですか? – bergonzzi