余分な学校のプロジェクトのために、私はどのようにウェブサイトを擦るかを学んでいます。以下のコードでわかるように、私は、あるページから 'elqFormRow'というフォームを掻き集めることができます。ウェブサイト特定のフォームを掻き集める
website全体で 'elqFormRow'のすべての出現を取り払う方法を教えてください。そのフォームがどこにあったかのURLをリストに戻したいのですが、どうやって笑っているのか分からないので、問題が発生しています。
import bs4 as bs
import urllib.request
sauce = urllib.request.urlopen('http://engage.hpe.com/Template_NGN_Convert_EG-SW_Combined_TEALIUM-RegPage').read()
soup = bs.BeautifulSoup(sauce, 'lxml')
for div in soup.find_all('div', class_='elqFormRow'):
print(div.text.strip())
あなたの質問を正しく読むと、あなたが望むように思えます。スパイダーは複雑になる可能性がありますが、一般的に言えば、ページ上の他のリンクのリンクを検索すると、そのページのURLに従いたいものを取得し、深度/要件を繰り返します。 'urllib.request'からurlを取得したい場合は、' .geturl() 'を使うことができますが、' .read'を使っているので変数にすることはできません。 – Pythonista