Scrapy：ウェブページからhtmlタグのみを抽出する方法

ウェブページからhtmlタグとそのテキストのみを抽出します。Scrapy：ウェブページからhtmlタグのみを抽出する方法

しかし、条件があります。

メタ、スクリプトタグを除外する必要があります。いずれにしても、ページ上に表示されているタグとその親タグは、ツリー構造を維持したままスクラップされなければなりません。

ありがとうございます。

2016-07-17 baduk

あなたは、最も可能性の高いシンプルなxpathでそれを行うことができます。

items = response.xpath("//*[not(self::script)][not(self::meta)]") 
for item in items: 
    tag_name = item.xpath("name()").extract_first() 
    tag_text = item.xpath("text()").extract_first() 
    print(tag_name) 
    print(tag_text)

これは、すべてのタグとそのテキストを抽出します。

出典

2016-07-17 12:29:00 Granitosaurus

ありがとうございます。 – baduk

@badukあなたの質問に答えている場合は、左手にそれを受け入れることをクリックして気軽に！ – Granitosaurus

Scrapy：ウェブページからhtmlタグのみを抽出する方法

答えて

関連する問題