私はリンクのリストを持っています。私はそれらが私の否認ファイルにリストされているかどうかを見たいと思っています。比較文字列と変更された文字列と部分文字列
除外ファイルには、domain:getpaydayloan.org
と表示されているドメインと同様、両方のURL(例:http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san
)が含まれています。
新しいURLファイルにはURLのみが含まれます。 http://getpaydayloan.org/blog/blog-how-to-apply-for-online-payday-loans-san
私は新しいURLが既に否認ファイルに含まれているかどうかを確認したいと思います。私は現在、diff = set(url_set)-set(disavow_urls)
を使ってdiffを生成していますが、domain:url.com
形式を使って否認ファイルに含まれているかどうかを確認する必要もあります。
どうすればいいですか?ここで
'http://getpaydayloan.org/blog/blog-how-to-for-online-payday-loans-san'はドメインではありません。 –
https://docs.python.org/3/library/urllib.parse .html –
おっと、ごめんなさい、私アリURL。ありがとう。 – austenallred