2017-06-01 5 views
0

ウェブサイトのhtmlコードに "&コピー"のシンボルを探し、100文字/記号の前後のn個の文字。ウェブサイトのhtmlコードから部分文字列の一部を抽出する必要があります。

htmlコードでもシンボル「& copy」が複数回表示されることがあります。この場合、シンボルのすべての発生に対して上記の手順を実行する必要があります。

現在、私は、単一のシンボルの最初の発生を抽出するためのコードを書かれている:

finalurl="https://example.com" 

req=requests.get(finalurl,verify=False,headers=hdrs) 

html=req.content 
html=html.decode('utf-8','ignore') 


if "&copy" in html: 
    pos_c = html.find("©") 
    symbol = html[pos_c-100:pos_c+100] 
    print(symbol) 

ので、ウェブサイトのhtmlコードは「サンプル&コピーサンプル1を持っている場合、これは一例です&コピー著作権の例」

私が取得したいと思います:

&コピーの最初の出現1.For:サンプル&コピーサンプル1本&コピーの第二の発生2.For

:例&コピー著作権の例

答えて

0
s='abcccccccccccccccccccccccccccccccc&copybebdddddddddddddddddddddddddddddddd' 
d1=s[0:s.index('&copy')] 
d2=s[s.index('&copy')+5:] 

これは&コピー前と&コピー後に文字列を取得するためのロジックです。 d1は&コピー前の文字列、d2は&コピー後の文字列です。あなたは、各&コピーのインデックスをキャプチャするために、あなたは、コードの上に使用して前方に移動することができますよりも、リストを使用することができるよりも複数の&コピーが来ている場合。

今だけ100

件までの文字をカウントするためにループを使用

+0

私はウェブサイトのホームページ全体のHTMLコンテンツを抽出しているので、リストを使用する必要はありません。 – Rey810

関連する問題