ウェブサイトのhtmlコードに "&コピー"のシンボルを探し、100文字/記号の前後のn個の文字。ウェブサイトのhtmlコードから部分文字列の一部を抽出する必要があります。
htmlコードでもシンボル「& copy」が複数回表示されることがあります。この場合、シンボルのすべての発生に対して上記の手順を実行する必要があります。
現在、私は、単一のシンボルの最初の発生を抽出するためのコードを書かれている:
finalurl="https://example.com"
req=requests.get(finalurl,verify=False,headers=hdrs)
html=req.content
html=html.decode('utf-8','ignore')
if "©" in html:
pos_c = html.find("©")
symbol = html[pos_c-100:pos_c+100]
print(symbol)
ので、ウェブサイトのhtmlコードは「サンプル&コピーサンプル1を持っている場合、これは一例です&コピー著作権の例」
私が取得したいと思います:
&コピーの最初の出現1.For:サンプル&コピーサンプル1本&コピーの第二の発生2.For
:例&コピー著作権の例
私はウェブサイトのホームページ全体のHTMLコンテンツを抽出しているので、リストを使用する必要はありません。 – Rey810