これは私がこれまでのリンクを持っているものです:BeautifulSoupのこのスクレーパーをどのようにしてすべてのリンクを通し、成分、栄養情報、および説明書を記録しますか?
from bs4 import BeautifulSoup
import urllib.request
import re
diabetesFile = urllib.request.urlopen("http://www.diabetes.org/mfa-recipes/recipes/recipes-archive.html?referrer=http://www.diabetes.org/mfa-recipes/recipes/")
diabetesHtml = diabetesFile.read()
diabetesFile.close()
soup = BeautifulSoup((diabetesHtml), "html.parser")
for link in soup.findAll('a', attrs={'href': re.compile("/recipes/20")}):
find = re.compile('/recipes/20(.*?)"')
searchRecipe = re.search(find, str(link))
recipe = searchRecipe.group(1)
print (recipe)
そして、これが削れますページの1の例である:
import bs4 as bs
import urllib.request
sauce = urllib.request.urlopen('http://www.diabetes.org/mfa-recipes/recipes/2017-02-dijon-chicken-and-broccoli-and-noodles.html').read()
soup = bs.BeautifulSoup(sauce, 'html.parser')
for div in soup.find_all('div', class_='ingredients'):
print(div.text)
for div in soup.find_all('div', class_='nutritional_info'):
print(div.text)
for div in soup.find_all('div', class_='instructions'):
print(div.text)
私の主な目標はコードの最初のセクションのWebサイトを使用し、すべての680ページからすべてのリンクを取得し、それぞれに入り、コードの2番目のセクションに記載されている情報を収集します。最後に、この情報をテキストファイルに書き込もうとしています。前もって感謝します!