私はhtmlについて多くのことを知りません... どのようにしてページからテキストだけを削除しますか?例えば としてHTMLページが読み込ま場合:私はちょうどこれを抽出したいHTMLファイルの処理Python
<meta name="title" content="How can I make money at home online? No gimmacks please? - Yahoo! Answers">
<title>How can I make money at home online? No gimmicks please? - Yahoo! Answers</title>
。
How can I make money at home online? No gimmicks please? - Yahoo! Answers
私は再機能を使用しています:
def striphtml(data):
p = re.compile(r'<.*?>')
return p.sub(' ',data)
が、まだ私がそれをするつもり何をやっていないですか..? HTML/XML解析のための正規表現を使用しないでください
for lines in filehandle.readlines():
#k = str(section[6].strip())
myFile.write(lines)
lines = striphtml(lines)
content.append(lines)
[Pythonで解析HTML]の可能複製(http://stackoverflow.com/questions/717541/parsing-html-in-:一つは、ページのテキストコンテンツを取得するにはBeautifulSoup
可能性がありpython)、[Pythonを使用してHTMLファイルを処理する](http://stackoverflow.com/q/7694637) – Sathya
この質問を確認する:http://stackoverflow.com/questions/328356/extracting-text-from-html-file -using-python – mgibsonbr