lxml

    0

    1答えて

    私はツリー全体をメモリに構築せず、探している要素を選択するほうがいいでしょう。

    0

    1答えて

    私はPythonでいくつかのWebスクラップをしています。しかし、あなたが知っているように、いくつかのWebページには異なる文字セットがあります。私はそれらのWebページをcharsetにする必要があります。長い話が短い、lxmlのために、xpathパターンとは何ですか? ありがとうございます。

    34

    2答えて

    いくつかのデータを抽出するためにxmlファイルを解析する必要があります。 私は特定の属性を持ついくつかの要素を必要とし、ここでの文書の例です: <root> <articles> <article type="news"> <content>some text</content> </article> <article type="inf

    0

    1答えて

    私はxpathを使ってスクレーパーに取り組んでいますが、xpathは私が必要とする情報を取り戻すことが不可能なようです。テーブル要素とその内容をすべて表示するには以下のコードを取得できましたが、tbodyまたはtr要素に行くとすぐにNoneが返されます。あなたは下のURLも見ることができます。 私はFirefoxでXPatherを使用して、以下が正しいことを確認しましたが、何らかの理由でPytho

    1

    2答えて

    xmlデータの解析にlxmlを使用しています。私はさまざまなノードでxmlを分割し、これらのサブツリーのそれぞれにデータを書き込んでファイルを分割する必要があります。 lxmlは_ElementTreeクラスのwrite()メソッドを提供しています。このメソッドは、解析ツリーが表すxmlをファイルに簡単に書き出します。 したがって、与えられたノードのサブツリーのルートノードによってツリー(_Ele

    2

    2答えて

    の値として属性を取得し、私はxsi:nil属性がtrueに設定されているかどうかを確認します。 私の現在のコードは xsinil = dataFact.get('{http://www.w3.org/2001/XMLSchema-instance}nil', False) しかし、その代わりに文字列型であるTrue xsinilであることの... 最善の解決策は何ですか?私は、これは非常にエレ

    1

    2答えて

    URLがbrタグで区切られたhtmlファイルがあります。 <a href="example.com/page1.html">Site1</a><br/> <a href="example.com/page2.html">Site2</a><br/> <a href="example.com/page3.html">Site3</a><br/> 注改行タグは<br/>の代わり<br />です

    1

    3答えて

    Pythonでは、以下のxmlからアイテムのリストを抽出する最良の方法は何ですか? <iq xmlns="jabber:client" to="[email protected]/8978528613056092673206" from="conference.localhost" id="disco" type="result"> <query xmlns="http://jabbe

    3

    2答えて

    プログラミングには一般的なので、間違った方法をとっています。私はパーザの出力からコンテンツを持たないHTMLテーブルの行を省略したいlxmlパーサーを作成しています。 for row in doc.cssselect('tr'): for cell in row.cssselect('td'): sys.stdout.write(cell.text_content() + '

    3

    2答えて

    lxmlでは、xpathを使用して、テーブルの中のtrをすべて選択しています。 。 最後の2つの行を除外するパターンマッチングはありますか?私はxpathのチュートリアルを見ていたのですが、明らかに "例外"演算子と "last()"がありますが、私のコードがうまく動作していないようです。 これまでのところ私はこれを持っています。このパターンに最後の2行を除外するために追加するものは何ですか?主な