2017-12-17 28 views
3

私は、ウェブページから別のカテゴリー名を得るためにスクレーパーをPythonで書いていますが、そのページから何かを取り出すことはできません。私はどこが間違っているのか理解できないように真剣に混乱しています。どんな助けも大いに評価されるでしょう。ここでウェブページからカテゴリータイトルを削ることはできません

では、ウェブページへのリンクです:

<div class="slide_container"> 
    <a href="/offers/furniture/" tabindex="0"> 
     <picture style="float: left; width: 100%;"><img style="width:100%" src="/_m4/9/8/1513184943_4413.jpg" data-w="270"></picture> 
     <div class="floated-details inverted" style="height: 69px;"> 
      <div class="h3 margin-top-sm margin-bottom-sm standardTitle"> 
       Furniture Offers       #This is the name I'm after 
      </div> 
      <p class="carouselDesc"> 
      </p> 
     </div> 
    </a> 
</div> 
:1つのなどのカテゴリ名は、私が後だその中

from bs4 import BeautifulSoup 
import requests 

res = requests.get("replace_with_above_url",headers={"User-Agent":"Mozilla/5.0"}) 
soup = BeautifulSoup(res.text,"lxml") 
for items in soup.select('.slide_container .h3.standardTitle'): 
    print(items.text) 

要素を:ここでURL

は、私がこれまで試したものです

+0

res.textに正しいhtmlが表示されますか? – imox

+0

あなたはあなたがあなたのブラウザで実際に見ているページではなく、次のコンテンツをブロックするページを返します。 "www.therrange.coを閲覧中でした。あなたのブラウザについての何かが、あなたがボットだと思うようにしました。これにはいくつかの理由があります... " – Andersson

+0

セレンを試しましたが、最後の結果は@sir Anderssonの言葉通りです。 – SIM

答えて

2
from bs4 import BeautifulSoup 
import requests 

headers = { 
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 
'accept-encoding':'gzip, deflate, br', 
'accept-language':'en-US,en;q=0.9', 
'cache-control':'max-age=0', 
'referer':'https://www.therange.co.uk/', 
'upgrade-insecure-requests':'1', 
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36', 
} 
res = requests.get("https://www.therange.co.uk/",headers=headers) 
soup = BeautifulSoup(res.text,'html.parser') 
for items in soup.select('.slide_container .h3.standardTitle'): 
    print(items.text) 

ヘッダがあなたがして、サーバがボットとしてあなたを扱うでしょ任意のヘッダを欠場scrapping.ifの最も重要な部分 であるため、ユーザーエージェントが十分ではありません。この

を試してみてください。

+0

あなたはただ素晴らしい@Tailor Devendraです。あなたのソリューションはついに実現しました。しばらくそれを受け入れるつもりです。私は何かを知りたいです。あなたは、私がdevtoolsで見ることができるものに応じてヘッダーに追加するクッキーと共にいくつかのパラメータをスキップしました。さらにヘッダに 'referer'というパラメータを追加しました。あなたはなぜ私が将来考慮に入れることができるのか教えてください。ありがとう。もう一度、あなたのソリューションは完璧にトリックを行いました。 – SIM

-1

代わり"lxml"

の使用
+0

どうしてこの問題が解決されますか? – SIM

+0

私は変数'res.text'が上記のhtmlを含み、さらに計算されると仮定しました。あなたは 'res.text'に入っているhtmlを貼り付けることができますか? – DecoderReloaded

関連する問題