私はscrapy
とXPath
を新しくしましたが、いつかはPythonでプログラミングしています。私は,name of the person making the offer
およびphone
番号をページhttps://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
からscrapyを使用して入手したいと考えています。ご覧のとおり、メールと電話は<p>
タグ内のテキストとして提供されているため、抽出が困難です。scrapyを使用して職務説明を取得するには?
私の考えは最初name of the person
Job Overview
内あるいは少なくともすべてのテキストは、このそれぞれの仕事について話してemail
を取得するためにReGex
を使用し、phone number
、可能な場合は、テキストを取得することです。
したがって、私はのコマンドをscrapy shell https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
で起動し、そこでresponse
を取得します。
今、私は実際に何も得られない部門job_description
からすべてのテキストを取得しようとしています。私はそれは私が言及したページからすべてのテキストを取得するにはどうすればよい[u'\t\t\t\n\t\t ']
を返し
full_des = response.xpath('//div[@class="job_description"]/text()').extract()
を使用しましたか?明らかに、前に述べた属性を得るためにタスクが後に来るでしょうが、最初に最初のものが最初にあります。
アップデート:この選択はあなたが実際にあなたが得るもののほか、任意のテキストを持っていない
full_des = response.xpath('//div[@class="job_description"]/text()').extract()
div
-tagに接近していた[]
response.xpath('//div[@class="job_description"]/div[@class="container"]/div[@class="row"]/text()').extract()
になります"セクション"。あなたはxpathクエリでそれをinluceするか、//を使用することができます。 div [@ class = "job_description"] // div [@ class = "container"]/..... – Borna