私は本当に貧しいHTML構造を持っているウェブサイトをスクレイピングしていると私はこのre.subのだけでも出現()に置き換え - Pythonの正規表現
例のようなテキスト取得しています:私はそれ欲しい
Creator:
\r\r
My Name
\r\r
Date created:
\r\r
123123
<br><br>
Title:
\r\r
Title here
\r\r
を
Creator: My Name
\r\r
Date created:123123
Title:Title here
\r\r
のように見えるように私は、この正規表現_str = re.sub('\r+','',_str)
を持っている。しかし、それはすべての\r
re.sub()
を反復処理する方法はありますか?または、私の目標を達成するにはどのような考えがありますか?
が_STR = re.sub( '([^ \ R] +)試してみてください\ \\ 1 \\ 2 '、_str) – Skycc
この関連する投稿を確認するhttp://stackoverflow.com/a/1732454/131057 –