私はこのコードを修正する方法を見つけることができるかどうかを確認するためにここにたくさんのスレッドを行ってきましたが、これはうまく動作しないようです。私はサイトからのリンクを掻き集めてcsvに書き込もうとしています。ここでは、コードがあります:BeautifulSoup Absoute URLを印刷するCSV
私はそこに道の95%を取得する方法を見つけましたが、ただのhrefを取得するために何かをしないのです:
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import csv
j = urllib.request.urlopen("http://cnn.com")
soup = BeautifulSoup(j, "lxml")
data = soup.find_all('a', href=True)
for url in soup.find_all('a', href=True):
#print(url.get('href'))
with open('marcel.csv', 'w', newline='') as csvfile:
write = csv.writer(csvfile)
write.writerows(data)
それを解決しました!ありがとう:)ちょうど理解の目的のために、データの追加= []という意味ですか? – Jarman
これは、単に「この場合、データと呼ばれる空のリストを作成する」ことを意味します。このようにして.appendメソッドを使用してループ内に記入することができます(リストがまだ存在しない場合はこのメソッドは機能しません) –
出力に一意の値だけを取得する方法はありますか?私が得ることを望んでいるのは、絶対リンクのリストです。例えば、http://cnn.com/(ここで掻き出したURL)です。しかし重複する値のないリスト。 – Jarman