html5lib

3熱

1答えて

html5lib：TypeError：__init __（）予期しないキーワード引数 'encoding'があります

html5libをインストールしようとしています。最初は最新のバージョン（8,9ネイション）をインストールしようとしましたが、BeautifulSoupと競合してしまったので、古いバージョン（0.9999999、seven nines）を試すことにしました。私はそれをインストールし、私はそれを使用しようとすると： >>> with urlopen("http://example.com/") as

0熱

1答えて

html5libは<None>を返します。

html5libチュートリアルの最初の手順で、私はかなり混乱した動作をしています。 docs伝えます： import html5lib f = open("mydocument.html") doc = html5lib.parse(f) を。これは、カスタムの "simpletree" の形式でツリーを返します。ファイルとして私は通常のhtml文書を持っています。しかし、私の場合、これ

0熱

3答えて

html5lib。 html、head、bodyタグを追加せずに有効なhtmlを取得するには？

html5libというユーザーからカスタムHTMLを検証しています。問題は、html5libがhtml,headとbodyタグを追加することです。これは必要ありません。 parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree")) f = open('/home/user/ex.html') doc =

1熱

1答えて

python3 - 'html5lib'という名前のモジュールがありません

私はhtml5libが必要なPython3プログラムを実行していますが、エラーNo module named 'html5lib'が表示されます。問題となる可能性が [email protected] ~ $ python Python 2.7.9 (default, Mar 1 2015, 12:57:24) [GCC 4.9.2] on linux2 >>> import html5li

-1熱

1答えて

PythonでWebページを解析する際の問題

Webページを解析してその情報を取得したいのですが（私の問題はこのリストのすべての項目を取得することです：http://www.computerhope.com/vdef.htm）。しかし、私はそれを行う方法を理解できません。これでインターネットスタート（簡体字）のチュートリアルがたくさん： html5lib.parse(urlopen("http://www.computerhope.com

3熱

2答えて

PythonのBeautifulSoupエラー

は、私は、このスクリプトを持っている： import urllib2 from BeautifulSoup import BeautifulSoup import html5lib import lxml soup = BeautifulSoup(urllib2.urlopen("http://www.hitmeister.de").read()) をしかし、これは私に次のエラー与え

2熱

1答えて

html5libのどのリビジョンが安定していますか？

html5libは最新のリリース（0.11）がやや古いことに注意してください。 Pythonの部分を使って、私はIssue 70とIssue 59に記載されているような再帰問題を持っていますが、安定した最近のMercurialリビジョンは見つかりません。最新の先端が良くない、私はpython setup.py installから、次のエラーを得た： byte-compiling build/bd