2017-03-13 24 views
0

Webページのタグ間に「ファイルit」の数を抽出したいと思います。 ここに私のコードです。それは「殿堂入り」の場合、結果1. でうまく動作しますが、「それをファイル」または「ダウンロード」の場合python beautifulsoupタグ間の出現数

from urllib.request import urlopen 
from bs4 import BeautifulSoup 

html = urlopen("https://www.crummy.com/software/BeautifulSoup/") 
bsObj = BeautifulSoup(html, "html.parser") 

nameList = bsObj.findAll(text="file it") 
print(len(nameList)) 

、それが結果2.

でうまく動作しますが、 「ディスカッショングループ」の場合は2になりますが、結果は0になります。

なぜ「ディスカッショングループ」のケースか「ソースコードを取得する」の結果が0になるのですか? ?

+1

を含むすべての空白にマッチする正規表現で使用\s+ページのソースを見ると、「議論の\ ngroup」 ''、間に改行があります。 – umutto

答えて

0
import re 
nameList = bsObj.findAll(text=re.compile(r"the\s+discussion\sgroup")) 

\n

関連する問題