2017-08-11 21 views
-1

私は、Webページを解析し、lxml.html HTMLEElement text_content()関数を使用してテキストページを取得しています。問題は、HTML自体に空白がなく、すべての新しい行が<p>タグで示されていることです。私がしたいのは、すべての<p>要素に改行を追加して、テキストが出力されたときに空白なしで連結された行を持たないようにすることです。 HTMLは次のようになりますどこpython lxml.html要素に空白を追加する

divs = body.cssselect('div') 

私はこの方法を必要とする要素を取得

<html><...><body><div><p>Text on one line.</p><p>Text on another line.</p></body></html> 

私はdiv要素で各<p>要素に\nを追加したいというI取得する。簡単であることが判明

おかげ

+1

ポストあなたが書かれているlxmlのコードとあなたがこすりしようとしているいくつかのサンプルHTML –

答えて

0

p_elements = body.findall(".//p") 
for element in p_elements: 
    text = element.text 
    element.text = "\n" + text 
関連する問題