html5lib

    3

    1答えて

    html5libをインストールしようとしています。最初は最新のバージョン(8,9ネイション)をインストールしようとしましたが、BeautifulSoupと競合してしまったので、古いバージョン(0.9999999、seven nines)を試すことにしました。私はそれをインストールし、私はそれを使用しようとすると: >>> with urlopen("http://example.com/") as

    0

    1答えて

    html5libチュートリアルの最初の手順で、私はかなり混乱した動作をしています。 docs伝えます: import html5lib f = open("mydocument.html") doc = html5lib.parse(f) を。これは、カスタムの "simpletree" の形式でツリーを返します。 ファイルとして私は通常のhtml文書を持っています。しかし、私の場合、これ

    0

    3答えて

    html5libというユーザーからカスタムHTMLを検証しています。問題は、html5libがhtml,headとbodyタグを追加することです。これは必要ありません。 parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree")) f = open('/home/user/ex.html') doc =

    1

    1答えて

    私はhtml5libが必要なPython3プログラムを実行していますが、エラーNo module named 'html5lib'が表示されます。問題となる可能性が [email protected] ~ $ python Python 2.7.9 (default, Mar 1 2015, 12:57:24) [GCC 4.9.2] on linux2 >>> import html5li

    -1

    1答えて

    Webページを解析してその情報を取得したいのですが(私の問題はこのリストのすべての項目を取得することです:http://www.computerhope.com/vdef.htm)。 しかし、私はそれを行う方法を理解できません。 これでインターネットスタート(簡体字)のチュートリアルがたくさん: html5lib.parse(urlopen("http://www.computerhope.com

    3

    2答えて

    は、私は、このスクリプトを持っている: import urllib2 from BeautifulSoup import BeautifulSoup import html5lib import lxml soup = BeautifulSoup(urllib2.urlopen("http://www.hitmeister.de").read()) をしかし、これは私に次のエラー与え

    2

    1答えて

    html5libは最新のリリース(0.11)がやや古いことに注意してください。 Pythonの部分を使って、私はIssue 70とIssue 59に記載されているような再帰問題を持っていますが、安定した最近のMercurialリビジョンは見つかりません。 最新の先端が良くない、私はpython setup.py installから、次のエラーを得た: byte-compiling build/bd