私は治療に慣れていますが、しばらくPythonを使用しています。私はscrapy
のドキュメントとxpath
セレクタのレッスンを受けました。さて、小さなプロジェクトをするために知識を変えたいと思います。私はjob links and the associated info like job title, location, emails (if any), phone numbers (if any)
をスクラップを使用してジョブボードhttps://www.germanystartupjobs.com/
からスクラップしようとしています。スクラピーを使用してhrefと関連情報を取得する方法は?
私は、このスターターコードを持って
import scrapy
class GermanSpider(scrapy.Spider):
# spider name
name = 'germany'
# the first page of the website
start_urls= ['https://www.germanystartupjobs.com/']
print start_urls
def parse(self, response):
pass
def parse_detail(self, response):
pass
とparse
関数内のクモscrapy runspider germany
を実行します、私はparse_detail
関数の内部href
sおよび詳細を取得したいと思います。私はchrome
開発ツールで言及したページを開いて、リストされたジョブを検査し、私はすべてのジョブがこのul
<ul id="job-listing-view" class="job_listings job-listings-table-bordered">
の内側にあり、その後、セパレートジョブが内部の多くに記載されていることがわかり、
仲間に関する情報と
<div class="job-info-row-listing-class">
のdivs
は、たとえば、href
が内部に設けられている<a href="https://www.germanystartupjobs.com/job/foodpanda-berlin-germany-2-sem-manager-mf/">
その他divs
は、役職、会社名を提供し、そのよう
<div>
<h4 class="job-title-class">
SEM Manager (m/f) </h4>
</div>
<div class="job-company-name">
<normal>foodpanda<normal> </normal></normal></div>
</div>
<div class="location">
<div class="job-location-class"><i class="glyphicon glyphicon-map-marker"></i>
Berlin, Germany </div>
</div>
として
divs
との位置などは、最初のステップは、その後、response
を使用してparse_details
内部に関連した情報をparse
機能を使用してhref
を取得し、ためになります。私は、とphone
という数字は、href
からのリンクを開くときにのみ提供されますが、タイトルと場所は同じページの現在のdivs
の中に提供されています。
私が言いましたように、私はPythonで大丈夫なプログラミングスキルを持っていますが、tutorialを持っていてもxpath
を使って苦労しています。どのようにリンクや関連情報を見つけるのですか?ほとんど説明がないサンプルコードでは、多くの助けになります。
私は彼らがこれまでにscrapy runspider germany
あなたの答えをありがとう、これは本当に役に立ちます。私はあなたに面白いかもしれない 'scrap'に関する別の質問を投稿しました' http:// stackoverflow.com/questions/41178659/how-to-get-the-job-description-using-scrapy' – Chak