lxml

    0

    1答えて

    私はxpathノードの値を反復しています。これはxpathクエリから取得します。そして、私はいくつかのノード値への参照を割り当てる必要があります。私が何をしたい。ここ までに: from lxml import etree doc = etree.fromstring(some_xml) nodes = doc.xpath('some_query') for node in nodes:

    5

    2答えて

    lxml 2.2.8を使用していて、既存のhtmlファイルをdjangoテンプレートに変換しようとしています。 私が抱っている唯一の問題は、lxml urlencodesがアンカー名とhref属性です。例えば : <xsl:template match="a"> <!-- anchor attribute href is urlencoded but the title is escaped -

    13

    4答えて

    私はこのようなXMLがあります。 <a> <b>hello</b> <b>world</b> </a> <x> <y></y> </x> <a> <b>first</b> <b>second</b> <b>third</b> </a> 私はすべての<a>と<b>タグを反復処理する必要があるが、しかし、私は、ドキュメント内にあ

    0

    1答えて

    私はいくつかの面倒なhtmlでサイトを解析しています。それらは130個のサブサイトであり、失敗したのは最後のものだけです。失敗した部分は太字です。私は3つ(親と2つの子)を取得する必要があるときに私は空のリストを取得します。すべてのサイトは同じ構造をしているので、これを解決する手掛かりはありません。 from lxml.html import parse # get a list of the

    1

    1答えて

    私はlxml.htmlを使用してPythonでhtmlページを解析しようとしています。 私は、次のコードを使用:page.htmlは私がどのプロキシおよびエンコーディング転送の使用に関するいくつかの作業を行う前に書いたプロキシプログラムをダウンロードされたウェブページである import lxml.html as H page = open('page.html', 'r').read() d

    10

    8答えて

    xpath経由でhtmlをいくつか破棄してから、それをetreeに変換しました。これに似た何か: <td> text1 <a> link </a> text2 </td> が、私はelement.textを呼んで、私はテキスト1(私は放火犯で私のクエリをチェックするときには、そこにする必要があり、要素のテキストが強調表示され、両方の前にテキストを取得しますそして

    0

    2答えて

    私は第三者が提供するXMLファイルを編集中です。 XMLは環境を作り直すために使用され、XMLを編集して変更を伝えることができます。コマンドラインオプションで変更したい要素を検索してXMLを保存することができましたが、特殊文字はエスケープされており、特殊文字を保持する必要があります。たとえば、$ gt;に変更しています。 .write操作中のファイル内の import sys from lxml

    3

    3答えて

    接頭辞なしで名前空間を追加する方法はあります(これらのns0、ns1を意味します)。それぞれに対応したソリューションですか?要素 (C)ElementTreeの(のpython 2.6+)のnsMapに引数 - - 接頭として空の文字列と名前空間のメソッドを登録 lxmlの:今私はのためのソリューションを持っているために 問題は、(c)Python 2.5のElementTreeですが、_name

    2

    3答えて

    <html> <head> <script type="text/javascript"> document.write('<a href="http://www.google.com">f*** js</a>'); document.write("f*** js!"); </script> </head> <body> <script ty

    17

    2答えて

    問題はこれです:私はそうのようなXMLフラグメントがあります - ちょうどと<c> - タグが、その(テキスト)-contentsを保持し、のchildNodes結果について <fragment>text1 <a>inner1 </a>text2 <b>inner2</b> <c>t</c>ext3</fragment> を、私はすべての<a>を削除したいです彼らはあるとして。また、<b> -