:) 次のpythonコードが空白も削除する理由はわかりませんが、それはあります。 誰かが私がそれをやることなくこれを取り除く方法を説明してもらえますか? ありがとうございました! :)pythonは空白を取り除くのを防ぐ
text = html
rules = [
{ r'>\s+' : u'>'},
{ r'\s+' : u' '},
{ r'\s*<br\s*/?>\s*' : u'\n'},
{ r'</(div)\s*>\s*' : u'\n'},
{ r'</(p|h\d)\s*>\s*' : u'\n\n'},
{ r'<head>.*<\s*(/head|body)[^>]*>' : u'' },
{ r'<a\s+href="([^"]+)"[^>]*>.*</a>' : r'\1' },
{ r'[ \t]*<[^<]*?/?>' : u'' },
{ r'^\s+' : u'' }
]
for rule in rules:
for (k,v) in rule.items():
regex = re.compile (k)
text = regex.sub (v, text)
print text
あなたが本当に試すべきではありませんregexesを使ってHTMLを解析するそれはすべて涙で終わるだろう。 – geoffspear
http://stackoverflow.com/a/1732454/1219006 – jamylak
ありがとうございます、私はHTMLパーサに目を向ける:) – abkai