lxml

0熱

1答えて

私はlxmlを使ってHTMLを解析していますが、タグの小さなサブセットだけが必要です。これを行う最も効率的な方法は何ですか？

私はツリー全体をメモリに構築せず、探している要素を選択するほうがいいでしょう。

0熱

1答えて

xpathを使った（X）HTML文書のmeta要素のcharset属性を取得する

私はPythonでいくつかのWebスクラップをしています。しかし、あなたが知っているように、いくつかのWebページには異なる文字セットがあります。私はそれらのWebページをcharsetにする必要があります。長い話が短い、lxmlのために、xpathパターンとは何ですか？ありがとうございます。

34熱

2答えて

lxmlの属性で要素を見つける

いくつかのデータを抽出するためにxmlファイルを解析する必要があります。私は特定の属性を持ついくつかの要素を必要とし、ここでの文書の例です： <root> <articles> <article type="news"> <content>some text</content> </article> <article type="inf

0熱

1答えて

Xpathが最初の要素を探そうとしていません

私はxpathを使ってスクレーパーに取り組んでいますが、xpathは私が必要とする情報を取り戻すことが不可能なようです。テーブル要素とその内容をすべて表示するには以下のコードを取得できましたが、tbodyまたはtr要素に行くとすぐにNoneが返されます。あなたは下のURLも見ることができます。私はFirefoxでXPatherを使用して、以下が正しいことを確認しましたが、何らかの理由でPytho

1熱

2答えて

lxml：ツリー内の指定された要素から新しい要素ツリーを作成する方法

xmlデータの解析にlxmlを使用しています。私はさまざまなノードでxmlを分割し、これらのサブツリーのそれぞれにデータを書き込んでファイルを分割する必要があります。 lxmlは_ElementTreeクラスのwrite（）メソッドを提供しています。このメソッドは、解析ツリーが表すxmlをファイルに簡単に書き出します。したがって、与えられたノードのサブツリーのルートノードによってツリー（_Ele

2熱

2答えて

etreeではなく、指定された要素の文字列

の値として属性を取得し、私はxsi:nil属性がtrueに設定されているかどうかを確認します。私の現在のコードは xsinil = dataFact.get('{http://www.w3.org/2001/XMLSchema-instance}nil', False) しかし、その代わりに文字列型であるTrue xsinilであることの... 最善の解決策は何ですか？私は、これは非常にエレ

1熱

2答えて

不正な形式のbrタグでの解析解析の問題

URLがbrタグで区切られたhtmlファイルがあります。 <a href="example.com/page1.html">Site1</a><br/> <a href="example.com/page2.html">Site2</a><br/> <a href="example.com/page3.html">Site3</a><br/> 注改行タグは<br/>の代わり<br />です

1熱

3答えて

PythonでXMLからアイテムリストを抽出する

Pythonでは、以下のxmlからアイテムのリストを抽出する最良の方法は何ですか？ <iq xmlns="jabber:client" to="[email protected]/8978528613056092673206" from="conference.localhost" id="disco" type="result"> <query xmlns="http://jabbe

3熱

2答えて

条件付きでリスト内の項目を繰り返し処理するPythonic方法

プログラミングには一般的なので、間違った方法をとっています。私はパーザの出力からコンテンツを持たないHTMLテーブルの行を省略したいlxmlパーサーを作成しています。 for row in doc.cssselect('tr'): for cell in row.cssselect('td'): sys.stdout.write(cell.text_content() + '

3熱

2答えて

最後の2つのtrを除くすべてのtrを選択するには

lxmlでは、xpathを使用して、テーブルの中のtrをすべて選択しています。。最後の2つの行を除外するパターンマッチングはありますか？私はxpathのチュートリアルを見ていたのですが、明らかに "例外"演算子と "last（）"がありますが、私のコードがうまく動作していないようです。これまでのところ私はこれを持っています。このパターンに最後の2行を除外するために追加するものは何ですか？主な