私はzabbixのホームページのコンテンツを入手しようとしました。Beautifulsoupは特殊文字を含むコンテンツを認識しません。zabbixからのコンテンツ
import re
some_page=session.get(url,headers=header).content
soup=BeautifulSoup(some_page,'lxml')
print soup.findAll('td',{'class':'average-bg'})
soup is as following
<td><span class='\"link-action\"' data-menu-popup='\"{"type":"host","hostid":"10457","showGraphs":true,"showScreens":true,"showTriggers":true,"hasGoTo":true,"scripts":[{"name":"Detect' operating="" system","scriptid":"3","confirmation":""},{"name":"ping","scriptid":"1","confirmation":""},{"name":"traceroute","scriptid":"2","confirmation":""}]}\"="">ELK211<\/span><\/td><td class='\"average-bg\"'><span #00aa00">ok<\\\="" #dc0000">problem<\\\="" "",="" "max-width:="" '<div><table="" 00:15:36<\\\="" 01:40:36<\\\="" 01:44:36<\\\="" 01:51:36<\\\="" 04:07:36<\\\="" 06:56:36<\\\="" 08:02:36<\\\="" 08:45:36<\\\="" 09:15:36<\\\="" 09:58:36<\\\="" 10:11:36<\\\="" 10d="" 10h<\\\="" 11:59:36<\\\="" 11h="" 11h<\\\="" 12:39:36<\\\="" 12d="" 12h="" 12h<\\\="" 12m<\\\="" 13:37:36<\\\="" 13h<\\\="" 14h="" 15m<\\\="" 16d="" 16m<\\\="" 17:58:36<\\\="" 17h<\\\="" 17m<\\\="" 18d="" 19d="" 19h="" 19m<\\\="" 1h<\\\="" 20d="" 21:30:36<\\\="" 22:18:36<\\\="" 22:49:36<\\\="" 22h="" 22h<\\\="" 23:58:36<\\\="" 23:58:37<\\\="" 23h="" 25m<\\\="" 26m<\\\="" 2d="" 2h<\\\="" 30m="" 32m<\\\="" 39s<\\\="" 3h="" 3h<\\\="" 40m<\\\="" 47m<\\\="" 4h<\\\="" 4m<\\\="" 500px");\"="" 56m<\\\="" 57m<\\\="" 58m<\\\="" 59m="" 59s<\\\="" 6h="" 6m<\\\="" 7h<\\\="" 8m<\\\="" 9h<\\\="" 9m<\\\="" class='\"link-action\"' false,="" href=""zabbix.php?action=acknowledge.edit&eventids[]=2174204&backurl=zabbix.php%3Faction%3Ddashboard.view">No<\\\/a><\\\/td><\\\/tr><\\\/tbody><\\\/table><\\\/div>'," id='"t5947401f69c53"><thead><tr><th>Time<\\\/th><th>Status<\\\/th><th>Duration<\\\/th><th>Age<\\\/th><th>Ack<\\\/th><\\\/tr><\\\/thead><tbody><tr><td>2017-06-18' onclick='\"hintBox.showStaticHint(event,' onmouseover='\"hintBox.HintWraper(event,' red"="" span><\\\="" style='"color:' td><td><a="" td><td><span="" td><td>11d="" td><td>12d="" td><td>1d="" td><td>1h="" td><td>1m="" td><td>21h="" td><td>27d="" td><td>28d="" td><td>29d="" td><td>2h="" td><td>2m="" td><td>3d="" td><td>3h="" td><td>48m<\\\="" td><td>4m<\\\="" td><td>6h="" td><td>7d="" td><td>7m<\\\="" td><td>8h="" td><td>9h="" this,="">Free disk space is less than 10% on volume \/data<\/span><\/td>
私はクラスが<td class='\"average-bg\"'>
のように見えることに気づいたので、そこに2つ(\「)があり、TDの内側とBSがそれを認識することはできません。私は\を削除しようとしました」と、動作しているようですページ全体にはこのような文字が多く含まれています。それらを置き換えると、いくつかの他の問題が発生します。 はまた、私が代わりに得ることはありません最後に、私は私が'<td>',</td>,
のようなまともなフォーマットを取得し、私が望むコンテンツを取得することができますどのように<\/td>
任意のアイデアを得ました。私はちょうど 'ボリューム/データで10%未満の空きディスク容量'と 'ELK211'が必要です。 lxmlをhtml.parserに置き換えようとしましたが、それは同じです。
をあなたが同様にURLを提供することができますか? –