lxmlを使用している場合、httpsについてどうすればいいですか？

私はlxmlを使ってURLを与えられたhtmlファイルを解析しています。例えばlxmlを使用している場合、httpsについてどうすればいいですか？

：

link = 'https://abc.com/def' 
htmltree = lxml.html.parse(link)

私のコードは、ほとんどの場合のためにうまく機能している、http://を持つもの。しかし、私はすべてのhttps://のURLを発見した、lxmlはIOErrorを取得します。誰もその理由を知っていますか？そしておそらく、この問題を解決する方法は？

私はすでに完成したプログラムを持っているので、BeautifulSoupに切り替えるよりlxmlに固執したいと思います。

2011-10-24 Flake

私は何が起こっているのか分かりませんが、私は同じエラーが発生します。 HTTPSはおそらくサポートされていません。しかし、urllib2でこれを簡単に回避できます。

from lxml import html 
from urllib2 import urlopen 

html.parse(urlopen('https://duckduckgo.com'))

2011-10-24 22:40:01

'from urllib.request import urlopen' for python3 –

lxmlドキュメントから：

lxmlのは

、ローカルファイルからのHTTP URLまたはFTP URLを解析することができ、私はどこでもその文でHTTPSが表示されていないので、私は仮定サポートされていません。

簡単な回避策は、urllib2のようなHTTPSをサポートする他のライブラリを使用してファイルを取得し、取得したドキュメントを文字列としてlxmlに渡すことです。

2011-10-24 22:38:53 kindall

答えて