2016-07-17 26 views
0

ウェブページからhtmlタグとそのテキストのみを抽出します。Scrapy:ウェブページからhtmlタグのみを抽出する方法

しかし、条件があります。

メタ、スクリプトタグを除外する必要があります。いずれにしても、ページ上に表示されているタグとその親タグは、ツリー構造を維持したままスクラップされなければなりません。

ありがとうございます。

答えて

0

あなたは、最も可能性の高いシンプルなxpathでそれを行うことができます。

items = response.xpath("//*[not(self::script)][not(self::meta)]") 
for item in items: 
    tag_name = item.xpath("name()").extract_first() 
    tag_text = item.xpath("text()").extract_first() 
    print(tag_name) 
    print(tag_text) 

これは、すべてのタグとそのテキストを抽出します。

+0

ありがとうございます。 – baduk

+0

@badukあなたの質問に答えている場合は、左手にそれを受け入れることをクリックして気軽に! – Granitosaurus

関連する問題