2012-03-13 5 views
0

htmlに表示されるもののサイズを数えるライブラリがPythonにはありますか?単語数、フォームサイズ、HTMLで表示されるものサイズ

exemple:

<a href="">titi</a> 

ここだけカウントティティ、フォーム表示のもののサイズに4

のですか?

<input type="text" size="10" maxlength="40" name="name"> 

ここでは10

だか、私は構文解析を行う必要がありますか?

よろしく

Bussiereは

答えて

0

あなたはHTMLを解析する必要があります。

Beautiful Soupのようなライブラリを使用して、必要に応じて値と属性を解析してから、フォーム属性の数値を特定したり、タグ内のテキストの長さを数えたりできます。リンクドキュメント毎の

、あなたは美しいスープを通じて

from bs4 import BeautifulSoup 
# html_doc is presumed to already contain the contents of the HTML document 
soup = BeautifulSoup(html_doc) 

をHTMLを実行した場合は、その後、たとえば

print "Document title length: %s" % len(soup.title.string) 

、または各リンクのテキストのために、文書のタイトルの長さを見つけることができます

doc_links = soup.find_all('a') 
link_text_length = [len(link.string) for link in 
     doc_links if len(link.string) > 40] 
total_long_links = len(link_text_length) 
print "%s links are too long in the document" % total_long_links 
関連する問題