2016-11-06 16 views
1

私はPythonとWebクローリングを全く勉強していません。テキストファイル(Beautiful Soup-Python3)でターゲットリンクhtmlをダウンロードする

個別のターゲットリンクをテキストページにダウンロードしようとしています。
これまでは、必要なすべてのターゲットURLを抽出することに成功しましたが、テキストファイル内のすべてのターゲットHTMLテキストをダウンロードする方法についてはわかりません。

誰かが私に一般的な考えを伝えることはできますか?

url = "" 
r = requests.get(url) 
data = r.text 
soup = BeautifulSoup(data, "lxml") 
link1 = soup2.find_all('a', href=re.compile("drupal_lists")) 
for t in link1: 
    print(t.attrs['href']) 

答えて

0

forループアクセスでは、リクエストlibを使用してリンクURLをアクセスし、その内容をファイルに書き込みます。次のようなものがあります。

link_data = requests.get(t.attrs['href']).text 
with open('file_to_write.out', 'w') as f: 
    f.write(link_data) 

リンクごとにファイル名を変更したい場合があります。

+0

私はこれをstatementに追加しましたが、それはうまくいきません。 1つのターゲットリンクが表示されます。何がここに間違っていますか? link1のtについて: link_data = requests.get(t.attrs ['href'])。テキスト open( 'text.txt'、 'w')をfとして: f.write(link_data) –

関連する問題