2016-09-02 4 views
-2

python scrapyフレームワークを使用してスクラップしたり、PHPスクレイピングを使用してCSS値をスクラップする方法はありますか? 任意のヘルプが適用されますscrapyフレームワークを使用してCSS値を削る

+0

Googleはそれらを実装しているときにエラーが出た場合は、そのようなものを見つけるためにグーグルを使用してこのサイトをご利用ください –

+1

あなたの友達です。 – Sachith

答えて

0

scrapy.Selectorを使用すると、xpathを使用してCSSを含むHTML要素のプロパティを抽出できます。

https://github.com/okfde/odm-datenerfassung/blob/master/crawl/dirbot/spiders/data.py#L83

(それが全体scrapyスパイダーにどのように適合するかのためにそのコードを見て回る)

あなたがウェブクローリングとちょうどHTML構文解析を必要としない場合、あなたはPythonでlxmlのから直接XPathを使用することができます。別の例:

https://github.com/codeformunich/feinstaubbot/blob/master/feinstaubbot.py

最後に、私は、CSS = element.attrib [「スタイル」]を経由してそれを行う方法を知っているのxpathからCSSで取得する - これはあなたにどのスタイル属性の内部にすべてを提供しますあなたはさらに、例えばcss.split( ';')、次にそれらのそれぞれを ':'で区切ります。

誰かがより良い提案をしてくれれば驚きません。ちょっとした知識があれば、たくさんの掻き取りをすることができます。それが私が以前のプロジェクトに基づいてアプローチする方法です。

0

はい、あなたはcssセレクタのxpathresponse.css()の2つの方法response.xpath()をしました基本的にselectorsのためのマニュアルを確認してください。たとえば、タイトルのテキストを取得するには、次のいずれかを行うことができます:

response.xpath('//title/text()').extract_first() 
response.css('title::text').extract_first() 
関連する問題