スクリプトをPythonで実行すると、結果が重複して表示されます。この重複を取り除くための回避策はありますか?ここに私のスクリプトは次のとおりです。ここでスクラップ中に重複するリンクを取り除く
import requests
from lxml import html
def Startpoint():
default="http://tennishub.co.uk"
link="http://tennishub.co.uk/"
response = requests.get(link)
tree = html.fromstring(response.text)
titles = tree.xpath('//div[@class="countylist"]')
for title in titles:
links = title.xpath('.//a/@href')
for link in links:
page = default + link
Midpoint(page)
def Midpoint(address):
default="http://tennishub.co.uk"
response = requests.get(address)
tree = html.fromstring(response.text)
titles = tree.xpath('//div[@class="pagination"]')
for title in titles:
links = title.xpath('.//a/@href')
for link in links:
mlink = default + link
print(mlink)
Startpoint()
は私が取得しています何のスクリーンショットです:
:あなたは
出力(
set
sが順序付けられていないので、あなたは異なる場合があり)などの各title
未処理のリンクのためにフィルタリングする必要がある、あなたのリンクはすべてのページ全体で一意になりたいですURLを 'set'に追加します。リンクをスクラップする前に、リンクがセットに含まれているかどうかを確認してください。 – Barmarお返事ありがとうございました。重複を取り除くためにセットを使用することについてたくさん聞いたことがありますが、私はそれを使用できません、私はどこにどのように配置するのか分かりませんでした。 – SIM
答えが更新されました。 –