私はhttps://www.similarweb.comにこのスニペットを実行しているときに、私はこのフィルターのハイパーリンク - パイソン
site = 'https://www.similarweb.com'
resp = requests.get(site)
encoding = resp.encoding if 'charset' in resp.headers.get('content-type', '').lower() else None
soup = BeautifulSoup(resp.content, from_encoding=encoding)
contact_links = []
for a in soup.find_all('a', href=True):
if 'product' in a['href'] or 'service' in a['href'] or 'solution' in a['href'] or 'about' in a['href'] or 'index' in a['href']:
contact_links.append(a['href'])
contact_links2 = []
for i in contact_links:
string2 = i
if string2[:4] == 'http':
contact_links2.append(i)
else:
contact_links2.append(site+i)
for i in contact_links2:
print i
を思い付いたURLのテキストproduct
service
solution
index
のような言葉が含まれるウェブサイトからのすべてのハイパーリンクを取得したいですいくつかのいくつかのリンクを提供しています。
https://www.similarweb.com/apps/top/google/app-index/us/all/top-free
https://www.similarweb.com/corp/solution/travel/
https://www.similarweb.com/corp/about/
http://www.thedailybeast.com/articles/2016/10/17/drudge-limbaugh-fall-for-twitter-joke-about-postal-worker-destroying-trump-ballots.html
https://www.similarweb.com/apps/top/google/app-index/us/all/top-free
(だけ前の5つのリンクを考慮して)
https://www.similarweb.com/corp/about/
私はどのように操作を行うことができます。この結果に続いて、私はこれらの言葉product
service
solution
index
後
期待出力任意の複数の単語があってはならないだけで、これらのリンクをしたいですそれ?
削除したいURLのサンプルを教えてください。 –
ここで、 'product'''''''''''''''''''''''はURLの最後の単語にする必要があります – Guru
@LutzHorn私はサンプルのもののうち3番目のURLを欲しい – Guru