2017-04-14 5 views
0

私は特定のWebページから削り取ったテキスト内のすべての余分なHTMLタグを取り除こうとしていますが、Pythonのstr.replace()<br>=のようなターゲットでは機能していないようです<li></li>などの他のタグは正常に置き換えられます。Pythonでstr.replace()<br>または '='を使用するにはどうすればよいですか?

ここに私のコードです。

str(txt).replace('<li>', '') 
     .replace('</li>', '') 
     .replace('<ol>', '') 
     .replace('</ol>', '') 
     .replace('<br>', '') 
     .replace('=', '') 

アドバイスをいただければ幸いです。

+0

可能な重複(http://stackoverflow.com/questions/753052/strip-html-from -strings-in-python) –

答えて

0

あなたはページからテキストを取得するためにBeautifulSoupを使用することができます。

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_source) 
text = soup.get_text() 

BeautifulSoupは、HTMLを解析し、テキストを取得するための簡単な機能を内蔵しています。

+0

迅速な対応をありがとう。私はそれを試してみましょう! – Yuta

-1

を有する を試してください: X = STR(TXT)、Pythonで文字列からストリップHTML]の

''.join(x.split('<li>'),x.split('</li>'),x.split('<ol>'),x.split('</ol>'),x.split('<br>'),x.split('=')) 
関連する問題