Webページを解析してその情報を取得したいのですが(私の問題はこのリストのすべての項目を取得することです:http://www.computerhope.com/vdef.htm)。PythonでWebページを解析する際の問題
しかし、私はそれを行う方法を理解できません。
これでインターネットスタート(簡体字)のチュートリアルがたくさん: html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))
しかし、その後、チュートリアルのどれも私が文書を閲覧し、私が探していますHTML部分を行くことができる方法を説明していません。
CSSSelector
で行う方法を説明しているチュートリアルもありますが、すべてのチュートリアルはウェブページではなく文字列で始まります(例:http://lxml.de/cssselect.html)。
だから私は、これを使用してWebページでツリーを作成しようとしました: fromstring(urlopen("http://www.computerhope.com/vdef.htm").read())
が、私はこのエラーを得た: lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28
を。このエラーは、指定されていない属性(例:<input attribute></input>
)があるためですが、ウェブページを管理していないため、回避できません。
だからここに私の問題を解決できるいくつかの質問があります:
- がどのようにツリーを参照することができますか?
- パーサをあまり厳しくする方法はありますか?
ありがとうございます!
XPathを探します。これは、XMLのような構造を解析するための非常に強力なツールです。 –
なぜetreeを使ってhtmlを解析していますか? –