1
私はPythonとWebクローリングを全く勉強していません。テキストファイル(Beautiful Soup-Python3)でターゲットリンクhtmlをダウンロードする
個別のターゲットリンクをテキストページにダウンロードしようとしています。
これまでは、必要なすべてのターゲットURLを抽出することに成功しましたが、テキストファイル内のすべてのターゲットHTMLテキストをダウンロードする方法についてはわかりません。
誰かが私に一般的な考えを伝えることはできますか?
url = ""
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
print(t.attrs['href'])
私はこれをstatementに追加しましたが、それはうまくいきません。 1つのターゲットリンクが表示されます。何がここに間違っていますか? link1のtについて: link_data = requests.get(t.attrs ['href'])。テキスト open( 'text.txt'、 'w')をfとして: f.write(link_data) –