あなたは全体の掻き取りプロセス中で署名する必要があるとして、ウェブサイトをクロールするための最良の選択はSelenuimを使用することです。 Requestsでも同じことが達成できますが、セレンはもっと良い選択です。
こする部分について、あなたはBeautifulSoupに固執すべきです。
セレンは、ブラウザを起動するためのwebdriverをする必要があります。このために、あなたは3つのオプションがあります。個人的に
を、それはあなたがあなたのスクリプトを拡張したい場合に最適ですheadless browsingを提供して、私はいつもPhantomJSを好むだろう別のウェブサイトなどにここ
は、Chromeブラウザのthrougを起動し、最小限のスクリプトです時間セレン:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import StaleElementReferenceException
from selenium.common.exceptions import NoSuchElementException
base_url = 'https://www.linkedin.com/search/results/index/?keywords=firstname%3Ajohn%20AND%20lastname%3Adoe%20AND%20company%3Amicrosoft%20AND%20title%3Aceo&origin=GLOBAL_SEARCH_HEADER'
chromedriver = os.path.dirname(os.path.realpath(__file__)) + "/chromedriver"
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)
driver.get(base_url)
# sign in and perform all your scraping
注:私はLinkedInのは、自分のコンテンツを検索するためのAPIを公開していないと思うので、あなたは、私が上記の何に固執する必要があります。
私は自分のアカウントを使ってサインインすることができます..また、これを実現する簡単なコードを与えることができます..ここで擬似コード: data = soup.pullUrl( 'http: //linkedin.com/search ... ') –
chromedriverは[ここ](https://sites.google.com/a/chromium.org/chromedriver/downloads)からダウンロードできます。 –