ページの絶対URL、およびそのページ内で見つかった相対リンクを考えると、への道があるだろうA)決定的に再構築またはB)ベストエフォート型の再構築相対リンクの絶対URL?ページに相対URLから絶対URLを再構築
私の場合は、美しいスープを使って、特定のURLからhtmlファイルを読み込み、すべてのimgタグソースを取り除き、ページイメージへの絶対URLのリストを作成しようとしています。
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:[email protected]:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
注:はPythonの答えは、必要なだけのロジックを必要としないでください
私のPythonの関数は、これまでのように見えます。
Hey coool !! (私がPythonを必要としたと推測した..) – Yarin
urlparseモジュールの名前がPython 3のurllib.parseに変更された。したがって、 'urllib.parse import urljoin' – SparkAndShine