私はwebMDに行くこのコードを書いて、これまでメッセージボードの各サブカテゴリからすべてのリンクを抽出しています。私が次にやるべきことは、プログラムがサブカテゴリリンクのすべてのページを通過するようにすることです。私は多くのことを試しましたが、私はいつも問題に直面していますか?Webクローラページの反復
import bs4 as bs
import urllib.request
import pandas as pd
source = urllib.request.urlopen('https://messageboards.webmd.com/').read()
soup = bs.BeautifulSoup(source,'lxml')
df = pd.DataFrame(columns = ['link'],data=[url.a.get('href') for url in soup.find_all('div',class_="link")])
lists=[]
for i in range(0,33):
link = (df.link.iloc[i])
source1 = urllib.request.urlopen(link).read()
soup1 = bs.BeautifulSoup(source1,'lxml')
あなたは直面している問題は何ですか?あなたは傷病をチェックしましたか? – mmenschig
問題は、私がサブリンクの最初のページに移動したときに、残りのページを続行する方法がわかりません。 – Data1234
最初のサブリンクページにアクセスしたときは、さらにリンクや投稿のように、ソースを読んで、必要な情報を抽出する必要があります。あなたが探しているものはscrapy.orgのようです。 – mmenschig