現在、LinkedInデータをスクレイプするためにSelenium Pythonを使用しています。さまざまなWebページを解析してデータをスクラップできますが、Unicodeエラーのために最初の数ページ後にプロセスが中断されます。UnicodeEncodeError: 'ascii'コーデックは448位の文字 'u2013'をエンコードできません:序数が範囲内にありません(128)
from selenium import webdriver
from time import sleep
driver = webdriver.Firefox()
driver.get('https://www.linkedin.com/jobs/search?locationId=sg%3A0&f_TP=1%2C2&orig=FCTD&trk=jobs_jserp_posted_one_week')
result = []
while True:
while True:
try:
sleep(1)
result +=[i.text for i in driver.find_elements_by_class_name('job-title-text')]
except:
sleep(5)
else:
break
try:
for i in range(50):
nextbutton = driver.find_element_by_class_name('next-btn')
nextbutton.click()
except:
break
with open('jobtitles.csv', 'w') as f:
f.write('\n'.join(i for i in result).encode('utf-8').decode('utf-8'))
を交換する前処理にあなたのコードが必要になる場合があります。( 'UTF-8')'デコード? 'Actual String' - >' Encode' - > 'Decode' - >' Actual String'、使用法は? –
私は仕事のタイトルのテキスト形式を取得し、CSVファイルにエクスポートしたい –
デコードを取り除こうとしましたが、それはまだ9番目のWebページまで動作し、停止します。実際には50ページあります –