2017-03-31 18 views
-1

beautifulsoupを使用してWebページのHTMLソースを取得しようとしています。beautifulsoupでページソースを取得する際に問題が発生しました

import bs4 as bs 
import requests 
import urllib.request 
sourceUrl='https://www.pakwheels.com/forums/t/planing-a-trip-from-karachi-to-lahore-by-road-in-feb-2017/414115/2.html' 
source=urllib.request.urlopen(sourceUrl).read() 
soup=bs.BeautifulSoup(source,'html.parser') 
print(soup) 

私は、ページのHTMLソースが必要です。これは私が今取得していますものです:あなたが正しく必要

from urllib import request 
from bs4 import BeautifulSoup 


url_1 = "http://www.google.com" 
page = request.urlopen(url_1) 
soup = BeautifulSoup(page) 
print(soup.prettify()) 

インポートすべて:

'ps.store("siteSettings", {"title":"PakWheels Forums","contact_email":"[email protected]","contact_url":"https://www.pakwheels.com/main/contact_us","logo_url":"https://www.pakwheels.com/assets/logo.png","logo_small_url":"/images/d-logo-sketch-small.png","mobile_logo_url":"data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0idXRmLTgiPz4NCjwhLS0gR2VuZXJhdG9yOiBBZG9iZSBJbGx1c3RyYXRvciAxNi4wLjAsIFNWRyBFeHBvcnQgUGx1Zy1JbiAuIFNWRyBWZXJzaW9uOiA2LjAwIEJ1aWxkIDApICAtLT4NCjwhRE9DVFlQRSBzdmcgUFVCTElDICItLy9XM0MvL0RURCBTVkcgMS4xLy9FTiIgImh0dHA6Ly93d3cudzMub3JnL0dyYXBoaWNzL1NWRy8xLjEvRFREL3N2ZzExLmR0ZCI+DQo8c3ZnIHZlcnNpb249IjEuMSIgaWQ9IkxheWVyXzEiIHhtbG5zPSJodHRwOi8vd3d3LnczLm9yZy8yMDAwL3N2ZyIgeG1sbnM6eGxpbms9Imh0dHA6Ly93d3cudzMub3JnLzE5OTkveGxpbmsiIHg9IjBweCIgeT0iMHB4Ig0KCSB3aWR0aD0iMjQwcHgiIGhlaWdodD0iNjBweCIgdmlld0JveD0iMCAwIDI0MCA2MCIgZW5hYmxlLWJhY2tncm91bmQ9Im5ldyAwIDAgMjQwIDYwIiB4bWw6c3BhY2U9InByZXNlcnZlIj4NCjxwYXRoIGZpbGw9IiNGRkZGRkYiIGQ9Ik02LjkwMiwyMy4yODZDMzQuNzc3LDIwLjI2Miw1Ny4yNC' 
+0

rawソースが必要な場合は、 'BeautifulSoup'は必要ありません。 –

+0

私は生のソースではなくHTMLソースが必要です –

+0

https://docs.python.org/3/howto/urllib2.html –

答えて

0

は、このコードを見てください。 thisを読んでください。

関連する問題