私はScrapyを使用してクローラを構築しています。私は特定のHTML要素に割り当てられたフォントファミリを取得する必要があります。(Scrapy)HTML要素のCSSルールを取得する方法は?
のには、次が含まれているCSSファイル、Styles.cssをがあるとしましょう:
p {
font-family: "Times New Roman", Georgia, Serif;
}
そして、HTMLページに次のようにテキストがある:
<p>Hello how are you?</p>
私のためにその簡単Scrapyを使用してテキストを抽出するために、私はまた、適用されたフォントファミリーを知りたいですこんにちは。
私はこれが(仮想XPATH)/p[font-family]
などの単純なケースであると考えています。
どうすればいいですか?
あなたの考えをありがとう。
CSSはあなたがtinycss、あるいは正規表現を使用することができます解析するための個人的には、それはScrapyによって処理できるものだとは思わない:(HTMLレンダラーのようなものを調べる必要があるかもしれない。 – starrify
https://pythonhosted.org/tinycss/をご覧になれます –