ウェブサイトを削除して、私が望むコンテンツだけを提供しようとしました。htmlが正常に動作していない
<li tabindex="0">
Facebook.
</li>
<li tabindex="0">
Twitter.
</li>
<li tabindex="0">
Pinterest.
</li>
<li tabindex="0">
Instagram.
</li>
<li tabindex="0">
Enter to Win.
</li>
これは、私が削除しようとしていることの一部です。基本的に店舗広告私は、私が欲しくないものを取り除き、店の広告に残っているものを残すように取り組んでいます。
私はいくつかの非常に奇妙なことが起こっています。私はそれらのカップルの周りに取り組んだが、私はまだ何をしようと '\ n'を取り除くことはできません。
a = re.findall('<li tabindex(.*?)</li>', html, re.DOTALL)
for x in range(0, len(a)):
a[x] = a[x].replace('="0">', '')
a[x] = a[x].replace('Enter to Win.', 'REMOVE')
a[x] = a[x].replace('Pinterest.\n \n', 'REMOVE')
a[x] = a[x].replace('Twitter.\n \n', 'REMOVE')
a[x] = a[x].replace('Instagram.\n \n', 'REMOVE')
a[x] = a[x].replace('Facebook.\n \n', 'REMOVE')
私は「」...あなたは私はむしろ奇妙な方法で「のliのtabindex」をやってのける持っているか、それが正常にそれのように別々のラインを離れてspliltません気づくでフルダウンロードしたWebページを持っています。私は(a)を印刷すると完全に空になります。素早く奇妙なやり方で、別々のエントリを分割する方法を理解しました。
今、私は '\ n'を削除しようとしていますが、私が試しても削除することはできません。
a[x] = a[x].replace('\n', '') # doesn't work
a[x] = a[x].replace('\n\n', '') # doesn't work
a[x] = a[x].replace('\r\n', '') # doesn't work
a[x] = a[x].replace('%s\n', '') # doesn't work
a[x] = a[x].replace('%s\r\n', '') # doesn't work
a[x] = a[x].rstrip('\r\n') # doesn't work
a[x] = a[x].strip('\r\n') #doesn't work
私は私がこれまでオンラインしようとすると、何も私は\ nを削除させることはありません見てきたすべてのものを試してみました。私は\ nの間に ''を取り除くことができますが、\ nは取り除くことができません。
'\ n'を削除するにはどうすればいいですか?また、重要な点として、私は標準のライン分割 'li tabindex'を実行するのに問題がありますか?何かが私に答えが1つと同じ原因かもしれないという気持ちを与えます。私は前にこのような問題があったことはありません。
更新、私が始めてきた元のコード:
import os
import re
from urllib.request import urlopen
from urllib.error import HTTPError
import urllib.request
plot = 'https://circulars.save-a-lot.com/flyers/accessibility/savealot?locale=en-US&store_code=24607&type=2'
htm = urlopen(plot).read()
html = str(htm)
a = re.findall("<li tabindex(.*?)</li>", html, re.DOTALL)
for x in range(0, len(a)):
a[x] = a[x].replace('="0">', '')
a[x] = a[x].replace(' ', '')
b = ''
for c in range(2,int(len(a[x])-2)):
if a[x][c] == '\n':
continue
else:
b = b + a[x][c]
a[x] = b
a[x] = a[x].replace('Flipp.', 'REMOVE')
a[x] = a[x].replace('Instagram.', 'REMOVE')
a[x] = a[x].replace('Facebook.', 'REMOVE')
#etc removing what I don't want to keep
if a[x] == 'REMOVE':
continue
else:
#write file to disk
あなたは 'rstrip()'を試しましたか?同様に、 'a [x] .rstrip()' –
rstrip()とrstip( '\ n')の組み合わせなど、それらはまったく削除しません。誰でも尋ねる前に... https://circulars.save-a-lot.com/flyers/accessibility/savealot?locale = en-US&store_code = 24607&type = 2私が取り組んでいるウェブページの1つです週刊セールス – confused