0
html5lib
チュートリアルの最初の手順で、私はかなり混乱した動作をしています。html5libは<None>を返します。
docs伝えます:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)
を。これは、カスタムの "simpletree" の形式でツリーを返します。
ファイルとして私は通常のhtml文書を持っています。しかし、私の場合、これは:
<None>
>>> doc is None
False
私はそれが大丈夫だと信じていますが、私は何が起こるか分かりません。
編集
私はそれ開いたファイルにread
メソッドを呼び出した場合はリターンが文字列としてファイルです:
f = open("mydocument.html")
f.read()
# returns string with html
そしてdoc = html5lib.parse(f)
後、f.read()
リターンがファイルが既に読み込まれたファイルのように空の文字列、。 <None>
が本当にあなたの文書が解析されていないことを意味するものではありません
mydocument.htmlが含まれてみてください? –
ofcourse、これはredmine =のログインページからコピーされたhtmlファイルで、フルパスを '/ home/user/file.html'として使用しています – I159