2016-06-16 19 views
0

英語版の日本語版を掻き取ろうとしていますが、日本語版と英語版のリンクは同じですが、英語版を傷つけるようにbeautifulsoupに指示する方法があります日本人の代わりに?私はこすりしたいウェブサイトの英語版のスクラップ

リンク:

https://data.j-league.or.jp/SFMS02/?match_card_id=17975

+1

https://data.j-league.or.jp/SFMS02/?match_card_id=17975&lang=ja – Jivan

+0

ボタンを調べると、実際には同じサイトではなく、lang = enの追加のパラメータがあることがわかります。それを渡してみてください。 – scrappedcola

答えて

2

lang=en URLクエリパラメータを追加すると、実際に機能することを実証するために:あなたもenSFCM01LANGクッキーを追加することができます

>>> import requests 
>>> from bs4 import BeautifulSoup 
>>> 
>>> url = "https://data.j-league.or.jp/SFMS02/?match_card_id=17975" 
>>> english_url = "https://data.j-league.or.jp/SFMS02/?match_card_id=17975&lang=en" 
>>> 
>>> print(BeautifulSoup(requests.get(url).content, "html.parser").find(class_="team-name").get_text(strip=True)) 
サガン鳥栖 
>>> print(BeautifulSoup(requests.get(english_url).content, "html.parser").find(class_="team-name").get_text(strip=True)) 
Sagan Tosu 

注意を値:

>>> url = "https://data.j-league.or.jp/SFMS02/?match_card_id=17975" 
>>> response = requests.get(url, cookies={'SFCM01LANG': 'en'}) 
>>> soup = BeautifulSoup(response.content, "html.parser") 
>>> print(soup.find(class_="team-name").get_text(strip=True)) 
Sagan Tosu 
関連する問題