私はこの時点でうまく動作しているそのWebページで利用可能な次のページリンクを掻き集めるために、Pythonでいくつかのスクリプトを書いています。このスクレーパーの唯一の問題は、重複リンクを振り払うことができないことです。誰かがこれを達成するのを助けてくれることを願っています。私が試してみた:重複したリンクが解析されないようにする方法を教えてください。
import requests
from lxml import html
page_link = "https://yts.ag/browse-movies"
def nextpage_links(main_link):
response = requests.get(main_link).text
tree = html.fromstring(response)
for item in tree.cssselect('ul.tsc_pagination a'):
if "page" in item.attrib["href"]:
print(item.attrib["href"])
nextpage_links(page_link)
これは私が得ているものの部分画像である:目的のために設定を使用でき
あなたはセットを作成し、処理されたすべてのリンクを追加し、処理前にそのリンクがすでにそこにあるかどうかを確認します。 –