scrapyを使用して職務説明を取得するには？

私はscrapyとXPathを新しくしましたが、いつかはPythonでプログラミングしています。私は,name of the person making the offerおよびphone番号をページhttps://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/からscrapyを使用して入手したいと考えています。ご覧のとおり、メールと電話は<p>タグ内のテキストとして提供されているため、抽出が困難です。scrapyを使用して職務説明を取得するには？

私の考えは最初name of the personJob Overview内あるいは少なくともすべてのテキストは、このそれぞれの仕事について話してemailを取得するためにReGexを使用し、phone number、可能な場合は、テキストを取得することです。

したがって、私はのコマンドをscrapy shell https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/で起動し、そこでresponseを取得します。

今、私は実際に何も得られない部門job_descriptionからすべてのテキストを取得しようとしています。私はそれは私が言及したページからすべてのテキストを取得するにはどうすればよい[u'\t\t\t\n\t\t ']

を返し

full_des = response.xpath('//div[@class="job_description"]/text()').extract()

を使用しましたか？明らかに、前に述べた属性を得るためにタスクが後に来るでしょうが、最初に最初のものが最初にあります。

アップデート：この選択はあなたが実際にあなたが得るもののほか、任意のテキストを持っていない

full_des = response.xpath('//div[@class="job_description"]/text()').extract()

div -tagに接近していた[]response.xpath('//div[@class="job_description"]/div[@class="container"]/div[@class="row"]/text()').extract()

出典

2016-12-16 Chak

になります"セクション"。あなたはxpathクエリでそれをinluceするか、//を使用することができます。 div [@ class = "job_description"] // div [@ class = "container"]/..... – Borna

を返します。

<div class="job_description" (...)> 
    "This is the text you are getting" 
    <p>"This is the text you want"</p> 
</div>

見ての通り、あなたがresponse.xpath('//div[@class="job_description"]/text()').extract()となっているテキストがないdiv -tag内部タグの間に、div -tagの間であるテキストです。このためには、必要があるでしょう：

response.xpath('//div[@class="job_description"]//*/text()').extract()

これが何をするか、それが（別のXPathには何をすべきかについてhereを参照）div[@class="job_description]からすべての子供のノードを選択し、テキストを返します。

あなたはまだすべて\nなどを取得しているので、これは多くの役に立たないテキストも返します。このためには、幅広いアプローチを行うのではなく、必要な要素にxpathを絞り込むことをお勧めします。

たとえば、ジョブ全体の説明では、と呼ばれる一つの要素をスキップしてすぐに、[クラス=「コンテナ」@] DIVに行くのdiv [用=「job_description」@クラス]の後

response.xpath('//div[@class="col-sm-5 justify-text"]//*/text()').extract()

出典

2016-12-16 08:49:35 rongon

あなたの優しい答えをありがとう。私は 'http：// stackoverflow.com/questions/41194574/how-to-find-all-the-jobs-as-a-website'に答えて興味深いかもしれないフォローアップの質問を投稿した – Chak

scrapyを使用して職務説明を取得するには？

答えて

関連する問題