2017-03-07 4 views
0

Google画像検索結果から画像のURLを取得しようとしています。 Google Image Searchを使用して分かっているように、グリッド内の小さな写真をクリックすると、その下にポップダウンする大きな画像が表示されます。これは、私のSelenium Chrome Webdriverが停止する場所です。 .click()コマンドと.send_keys(Keys.RETURN)コマンドを試しました。また、.send_keys(Keys.CONTROL + Keys.RETURN)コマンドを試して、新しいタブで開こうとしました。 フルイメージを取得するには、クリックしたい小さな画像の検索結果の下に4つの要素があります。 3つの要素が返されます
"selenium.common.exceptions.WebDriverException:メッセージ:不明なエラー:要素をフォーカスできません"下記のコードのX-Pathはそのエラーを表示しませんが、何もしません。ターミナルは$プロンプトに戻ります。 写真やボタンが何かのためにポップダウンするようなことはできません。メニューで要素を操作するようにSeleniumに指示すると、開くことができません。要素が表示されていないと表示されます。 APIの制限よりも多くの画像が必要なため、APIを使用したくありません。一部のGoogle画像検索結果でSeleniumのオブジェクトをクリックできない

ここにコードがあります。私はこのコードの下の別のオプションを考えています。

import requests 
from selenium import webdriver 
from selenium.webdriver.chrome.options import Options 
from selenium.webdriver.common.keys import Keys 

list3 = ["rags and scraps"] 


#Setup The Automated Browser (brew install chromedriver) 
options = webdriver.ChromeOptions() 
options.add_argument('user-data-dir=/user/anthonycelio/selgoog/chrome_driver') #Path to your chrome profile 
driver = webdriver.Chrome('/usr/local/Cellar/chromedriver/2.27/bin/chromedriver')#, chrome_options=options) #Type 'brew list chromedriver' to find path 

driver.get("https://www.google.com/search?q=cats+and+dogs&safe=off&espv=2&biw=1599&bih=726&source=lnms&tbm=isch&sa=X&ved=0ahUKEwiI56_7isXSAhXC4iYKHcbZCLEQ_AUIBigB#q=cats+and+dogs&safe=off&tbm=isch&tbs=sur:fc&*") 

for i in list3: 
    driver.find_element_by_xpath("""//*[@id="lst-ib"]""").clear() 
    inputElement = driver.find_element_by_xpath("""//*[@id="lst-ib"]""") 
    inputElement.send_keys(list3) 
    driver.find_element_by_xpath("""//*[@id="_fZl"]""").send_keys(Keys.RETURN) 
    driver.find_element_by_xpath("""//*[@id="rg_s"]/div[1]/a""").click() 

これは、Googleがセレンでその画像がunclickable作った場合、画像のURLを格納するためのさまざまなオプションがあります:あなたはouterHTMLをコピーした場合の要素の一つは、それにリンクされています。問題は彼らがコードをリンクに埋め込んでいることです。私はそれがどんな一貫性でも取り除かれることができるのだろうかと思います。

<a href="/imgres?imgurl=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fa%2Fab%2FFrank_G._Carpenter%2C_Salvaging_scraps_on_the_streets_of_Paris.jpg&amp;imgrefurl=https%3A%2F%2Fcommons.wikimedia.org%2Fwiki%2FFile%3AFrank_G._Carpenter%2C_Salvaging_scraps_on_the_streets_of_Paris.jpg&amp;docid=iNT670hfj_m0nM&amp;tbnid=ziffAZE9s2oycM%3A&amp;vet=1&amp;w=7290&amp;h=5614&amp;safe=off&amp;bih=705&amp;biw=1050&amp;q=rags%20and%20scraps&amp;ved=0ahUKEwjkhr_MqMXSAhUFfiYKHQ5JBpkQMwgaKAAwAA&amp;iact=mrc&amp;uact=8" jsaction="fire.ivg_o;mouseover:str.hmov;mouseout:str.hmou" class="rg_l" rel="noopener" style="background: rgb(120, 117, 101); width: 188px; height: 161px; left: 0px;"><img class="rg_ic rg_i" data-sz="f" name="ziffAZE9s2oycM:" alt="Image result for rags and scraps" jsaction="load:str.tbn" onload="google.aft&amp;&amp;google.aft(this)" src="" style="width: 209px; height: 161px; margin-left: -10px; margin-right: -11px; margin-top: 0px;"><div class="_aOd rg_ilm"><div class="rg_ilmbg"><span class="rg_ilmn"> 7290&nbsp;×&nbsp;5614 - commons.wikimedia.org </span></div></div></a> 

https://upload.wikimedia.org/wikipedia/commons/a/ab/Frank_G._Carpenter,_Salvaging_scraps_on_the_streets_of_Paris.jpg 

答えて

1

最も簡単なオプションは、あなたが言及した第2のものです。 hrefの値を抽出し、urllibunquoteの関数を実行して値を実行することができます。あなたがイメージ結果ページ上にある場合:

import urllib 

images = driver.find_elements_by_class_name('rg_l') 
for image in images: 
    href = image.get_attribute('href') 
    if '?imgurl=' in href: # Do this because often times the last result will not be an actual image 
     image_url_raw = href.split('?imgurl=')[1].split('&imgrefurl=')[0] 
     image_url = urllib.unquote(urllib.unquote(image_url_raw)) 

あなたがのpython3上にある場合、あなたは、彼はまた、単にURLをdriver.getできるのと同じ原理を使用してurllib.parse.unquote(urllib.parse.unquote(image_url_raw))代わり

+0

を使用する必要があります。 – OryanM

+0

ありがとうございます。ありがとうございました。ありがとうございました。 ametureの質問に申し訳ありませんが、私はどのように最初の20をちょうどつかむことができますか? – Ant

+1

@Ant change in images for images in画像[:20] – crookedleaf

関連する問題