0
ウェブページからhtmlタグとそのテキストのみを抽出します。Scrapy:ウェブページからhtmlタグのみを抽出する方法
しかし、条件があります。
メタ、スクリプトタグを除外する必要があります。いずれにしても、ページ上に表示されているタグとその親タグは、ツリー構造を維持したままスクラップされなければなりません。
ありがとうございます。
ウェブページからhtmlタグとそのテキストのみを抽出します。Scrapy:ウェブページからhtmlタグのみを抽出する方法
しかし、条件があります。
メタ、スクリプトタグを除外する必要があります。いずれにしても、ページ上に表示されているタグとその親タグは、ツリー構造を維持したままスクラップされなければなりません。
ありがとうございます。
あなたは、最も可能性の高いシンプルなxpath
でそれを行うことができます。
items = response.xpath("//*[not(self::script)][not(self::meta)]")
for item in items:
tag_name = item.xpath("name()").extract_first()
tag_text = item.xpath("text()").extract_first()
print(tag_name)
print(tag_text)
これは、すべてのタグとそのテキストを抽出します。
ありがとうございます。 – baduk
@badukあなたの質問に答えている場合は、左手にそれを受け入れることをクリックして気軽に! – Granitosaurus