0
私の出力で重複するURLを削除する際に助けが必要です。可能であれば、私はリストにすべてを入れる必要がないように表現しようとします。私はそれが実現するようにいくつかの論理的な声明で、ちょうどそれが起こる方法を確信しないように感じる。 Python 3.6を使用するあなたがはるかに少ないことが好ましいで、メモリ使用するよりもある(何度も繰り返し、それをファイルに書き込み、再読み込みする場合を除き、あなたはいくつかの種類の任意のデータ構造を使用せずにこれを達成することはできませんPythonで重複したURLを削除する(非リスト)
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
from urllib.parse import urljoin as join
my_url = 'https://www.census.gov/programs-surveys/popest.html'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
filename = "LinkScraping.csv"
f = open(filename, "w")
headers = "Web_Links\n"
f.write(headers)
links = page_soup.findAll('a')
for link in links:
web_links = link.get("href")
ab_url = join(my_url, web_links)
print(ab_url)
if ab_url:
f.write(str(ab_url) + "\n")
f.close()
、理解はクリーナー私見です – MariusSiuram
@MariusSiuram真実ですが、セットのコンテンツをファイルに書き込む際に順序を失う – DeepSpace
@DeepSpace Perfect solution。リスト/リストを使用したくない理由がわかりません。しかし、それは正確に何が行われる必要があります。ありがとう! –