0
私はウェブクローラーの世界では初めてです。単純なJSONファイルをクロールしてそこからリンクを取得するのは少し難しいです。私はこれを試して達成するためにフレームワークを使用しています。JSONファイルからリンクをクロールする
{
"pages": [
{
"address":"http://foo.bar.com/p1",
"links": ["http://foo.bar.com/p2",
"http://foo.bar.com/p3", "http://foo.bar.com/p4"]
},
{
"address":"http://foo.bar.com/p2",
"links": ["http://foo.bar.com/p2",
"http://foo.bar.com/p4"]
},
{
"address":"http://foo.bar.com/p4",
"links": ["http://foo.bar.com/p5",
"http://foo.bar.com/p1", "http://foo.bar.com/p6"]
},
{
"address":"http://foo.bar.com/p5",
"links": []
},
{
"address":"http://foo.bar.com/p6",
"links": ["http://foo.bar.com/p7",
"http://foo.bar.com/p4", "http://foo.bar.com/p5"]
}
]
}
マイitems.pyファイル
import scrapy
from scrapy.item import Item, Field
class FoobarItem(Item):
# define the fields for your item here like:
title = Field()
link = Field()
マイクモファイル
from scrapy.spider import Spider
from scrapy.selector import Selector
from foobar.items import FoobarItem
class MySpider(Spider):
name = "foo"
allowed_domains = ["localhost"]
start_urls = ["http://localhost/testdata.json"]
def parse(self, response):
yield response.url
結局、私はファイルをクロールしてリンクを返したいと思います:
私のJSONの例ファイル
重複していないオブジェクトでは、今は私もjsonをクロールするのに苦労しています。上記のコードはjsonオブジェクトをクロールしてリンクを返すと思ったが、出力ファイルは空です。私が何を間違っているのか分かりませんが、助けていただければ幸いです。