あなたはHTMLを解析する必要があります。
Beautiful Soupのようなライブラリを使用して、必要に応じて値と属性を解析してから、フォーム属性の数値を特定したり、タグ内のテキストの長さを数えたりできます。リンクドキュメント毎の
、あなたは美しいスープを通じて
from bs4 import BeautifulSoup
# html_doc is presumed to already contain the contents of the HTML document
soup = BeautifulSoup(html_doc)
をHTMLを実行した場合は、その後、たとえば
print "Document title length: %s" % len(soup.title.string)
、または各リンクのテキストのために、文書のタイトルの長さを見つけることができます
doc_links = soup.find_all('a')
link_text_length = [len(link.string) for link in
doc_links if len(link.string) > 40]
total_long_links = len(link_text_length)
print "%s links are too long in the document" % total_long_links