2017-06-17 2 views
-1

従業員のLinkedInのプロフィールを検索し、トップURLを返すプログラム的に私たちは、会社の内部の従業員のファーストネーム、姓、会社、タイトル、とLinkedInのを検索し、ファイルやテーブルに、検索結果を引っ張ってくるプログラムまたはスクリプトを作成したい

LinkedInのキーワードに基づいて、私のように検索のURLを生成できます。

https://www.linkedin.com/search/results/index/?keywords=firstname%3Ajohn%20AND%20lastname%3Adoe%20AND%20company%3Amicrosoft%20AND%20title%3Aceo&origin=GLOBAL_SEARCH_HEADER 

私は結果から、トップURLを引っ張ったりこすっする必要があります。私はブラウザで自分のアカウントを使ってサインインすることができます。

LinkedInのは、APIを公開するかどうかは知りません、または私はカールでこれを行うことができ、またはこれに最適だろうどのような言語ならば...誰もがして起動する簡単なサンプルコードがありますか?

答えて

1

あなたは全体の掻き取りプロセス中で署名する必要があるとして、ウェブサイトをクロールするための最良の選択はSelenuimを使用することです。 Requestsでも同じことが達成できますが、セレンはもっと良い選択です。

こする部分について、あなたはBeautifulSoupに固執すべきです。

セレンは、ブラウザを起動するためのwebdriverをする必要があります。このために、あなたは3つのオプションがあります。個人的に

を、それはあなたがあなたのスクリプトを拡張したい場合に最適ですheadless browsingを提供して、私はいつもPhantomJSを好むだろう別のウェブサイトなどにここ

は、Chromeブラウザのthrougを起動し、最小限のスクリプトです時間セレン:

from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 
from selenium.common.exceptions import StaleElementReferenceException 
from selenium.common.exceptions import NoSuchElementException 

base_url = 'https://www.linkedin.com/search/results/index/?keywords=firstname%3Ajohn%20AND%20lastname%3Adoe%20AND%20company%3Amicrosoft%20AND%20title%3Aceo&origin=GLOBAL_SEARCH_HEADER' 

chromedriver = os.path.dirname(os.path.realpath(__file__)) + "/chromedriver" 
os.environ["webdriver.chrome.driver"] = chromedriver 

driver = webdriver.Chrome(chromedriver) 
driver.get(base_url) 

# sign in and perform all your scraping 

注:私はLinkedInのは、自分のコンテンツを検索するためのAPIを公開していないと思うので、あなたは、私が上記の何に固執する必要があります。

+0

私は自分のアカウントを使ってサインインすることができます..また、これを実現する簡単なコードを与えることができます..ここで擬似コード: data = soup.pullUrl( 'http: //linkedin.com/search ... ') –

+0

chromedriverは[ここ](https://sites.google.com/a/chromium.org/chromedriver/downloads)からダウンロードできます。 –

関連する問題