私はこのwebpageにコミットされたすべての犯罪を掻き回そうとしています。スクラップしたい各ページは、フォーマット「http://www.mylocalcrime.com/#」+郵便番号です。しかし、私がソースをpythonまたはchrome経由で見ると、私は逮捕者を列挙したデータは得られません。私は、犯罪の種類ごとの画像とその犯罪のラベルを含む一般的なWebページを取得します。たとえば、ソースには次のようなメッセージが表示されます(ソースを参照すると表示されます)。li < ...>破壊行為/ li>しかし、破壊行為は犯罪ではありませんが、これは単に破壊行為の内容を含む一般的な破壊行為のシンボルです。Xpathを使ってPythonでスクラップする問題
私は美しいスープを使用してみましたが、私のコードは基本的には次のとおりです。
import csv
from bs4 import BeautifulSoup
from lxml import html
import requests
csvloc = '.../.../filelocation.csv'
ziplist = [1001]
listofcrimes = []
#with open(csvloc,'r') as csvfile:
# ziplist = list(csv.reader(csvfile))
for each in ziplist:
zipcode = str(each).zfill(5)
page = requests.get('http://www.mylocalcrime.com/#'+zipcode)
tree = html.fromstring(page.content)
この要求は、一般的なページのHTMLファイルを返します。デスクトップスクレイパーを使用すると、結果をスクラップし、Xpath:// tr [50]/td([]は0から50まで)を提供するので、これを行う方法が必要です。よくXpathをよく理解していないけど、私が読んだソースファイルにはtrはありません。ヘルプをいただければ幸いです。