lxmlでネストされたフォーム要素を持ついくつかのhtmlページをスクラップしたいと思います。これらのページでBeautifulSoupのチョークさえ、私が見つけた唯一のパーサーは、どのタグがネストされているかどうかを知らないMinimalSoupです。lxmlでネストされたフォームタグを処理する方法
lxmlにはネストされたフォームタグについて気にしないパーサーがありますか? 他の提案はありますか?
もし私がMinimalSoupを使用し続ける必要があれば。
lxmlでネストされたフォーム要素を持ついくつかのhtmlページをスクラップしたいと思います。これらのページでBeautifulSoupのチョークさえ、私が見つけた唯一のパーサーは、どのタグがネストされているかどうかを知らないMinimalSoupです。lxmlでネストされたフォームタグを処理する方法
lxmlにはネストされたフォームタグについて気にしないパーサーがありますか? 他の提案はありますか?
もし私がMinimalSoupを使用し続ける必要があれば。
lxml.etree.HTMLParserはどうですか?それは比較的うまくいくはずですよね?
import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)
あなたのツリーがあります。
、ありがとうございます。 – cerberos
あなたの歓迎、ありがとう –
あなたが掻き取ろうとしているページへのリンクを提供できますか?問題が発生しているデータは何ですか? – mac
ページにログインする必要がありますので、私はリンクを提供できません – cerberos