国勢調査のウェブサイトからURLのリストを取得して、重複していないことを確認してから、その重複していないURLのリストを.csvファイルにエクスポートするよりも、しかし、私のset
は重複した値を返し続けますが、これは可能ではありません。絶対URLの、好ましくは非重複リストにそれらをソート前に私も自分の結果の相対URLに変換する方法が必要、ボーナス質問としては重複を返しますか?
import bs4
from bs4 import BeautifulSoup
import requests
import csv
source_link = "https://www.census.gov/data/tables/2016/demo/popest/state-total.html"
s = requests.get(source_link)
usable_html = s.text
setupsoup = BeautifulSoup(usable_html, 'lxml')
silver = csv.writer(open("WGUCSV.csv", "r+"))
silver.writerow(["URL"])
for set(gold) in setupsoup.findAll('a', href=True):
gold.add['href']
print (gold)
silver.writerow(gold)
だ:ここに私のコードです。私は本当にset
にそれらをすべて追加することは、それ自身の上に重複を除外すると思った。
を試してみてくださいsetupsoup.findAllにおける(金)( 'A'、のhref =真): 'は有効なPythonでさえありません。 –
あなたはset in gold(setupsoup.findAll( 'a'、href = True))を意味しましたか? ( 'a'、href = True):gold = set(gold)... ' – AChampion
私のループは今では:金のセット(setupsoup.findAll(' a '、href = True) )): \t gold.add ['href'] これは何とか重複を返すものです。 – houseofbacon