ウェブサイトのページソースを表示できません

私は単純なpythonスクリプトを書いて、ウェブサイトのページソースを表示しました。ウェブサイトはhttps://kissanime.toです。私は以下の小さなコードを使用しています。上記のプロセスが動作していないとウェブサイトのページソースを表示できません

HTTP Error 403 : Forbidden

を次のようにエラーメッセージが表示されるが

import urllib2 
    url = 'https://kissanime.to' 
    link = urllib2.urlopen(url) 
    print link

iは、コミュニティにおける上記の問題を見つけ解決策を試してみましたが、この思い付きました： -

 import urllib2 
    url = 'https://kissanime.to' 
    link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"}) 
    link2 = urllib2.urlopen(link1)

は、しかし、上記の方法でも失敗し、今私はエラーになっています： -

を

HTTP Error 503 : Service Temporarily Unavailable

この問題の回避策はありますか？私はPythonのこのWebクローリング機能には全く新しいものです。助けてください。

出典

2016-06-28 soumya dubey

私の推測では、ユーザエージェントは、あなたの問題である - サイトがあなたをブロックしています。これはおそらく重複している：http://stackoverflow.com/questions/28396036/python-3-4-urllib-request-error-http-403 – Jeff

それでは、問題の解決方法は？ –

私が提供したリンクにあります。サイトが受け入れるユーザーエージェントを指定する必要があります。 – Jeff

ウェブサイトをチェックすると、何かをしている間に5秒待ってからメインコンテンツが表示されます。

私は「5秒待って」と言い、この最初のページで取得するには、requestsモジュールを使用：、しかし

import requests 

r = requests.get("https://kissanime.to/") 

# Throws an Insecure Platform warning on certain versions of python 

print r.content

をあなたがこすりしたい正確にどのように応じて、あなたはボンネットの下に見ることによって開始することができますサイトがどのように構築されたかを把握し、必要なコンテンツをスクラップするための戦略を考案します。

私は、サイトで行われたネットワークコールを見て、すべてのコールにパラメータとクッキーが埋め込まれているという点でかなり頑固だと言わなければなりません。

具体的には、このウェブサイトからスクレイプすることをお探しですか？

それが言う最初のページを示す場合も、サーバは503を返している「5秒待って...」を

出典

2016-06-28 15:10:45

実際に働いてくれてありがとう。私はそのウェブサイトからワンピースのエピソードをダウンロードしようとしています。それは本当に退屈で時間を費やし、手でひとつずつダウンロードしようとしていました。私は人々が生活を楽にするためにPythonを使用していることを聞いたので、私はまた、それらをダウンロードするWebクローラーを作るために物事を学び始めた –

あなたはホームページを通過することなく、ビデオソースURLのパターンを見たいかもしれません。ビデオを右クリックするだけで、ビデオURLを表示するオプションが表示されます。あなたはそれらの1つをここに投稿できますか？ –

私はそれらを見て、すべてのURLのために異なっているものだけが署名の部分文字列です。これは動画のダウンロードURLです.https：//redirector.googlevideo.com/videoplayback？requiressl = yes＆id = f28b2929ddeb2426＆itag = 18＆source = webdrive＆ttl = transient＆app = texmex＆ip = 2001：19f0：6000：9ad4：5400：ff：fe20：66ec＆ipbits = 32＆期限切れ= 1467135046＆sparams = requiressl、ID、ITAG、ソース、TTL、IP、ipbits、期限切れ＆署名= 3149A7DDE3B2359A8FABFAC38E7CC4ED3E8FFBF7.DDB44E95904F82ACDA3A48DCCE3BECE59FC0224＆キー= CK2＆MM = 30＆MN = SN-a5m7zne6＆MS = nxu＆MT = 1467120529＆MV = M＆NH = IgpwcjAyLmxheDAyKgkxMjcuMC4wLjE＆PL = 38' –

ウェブサイトのページソースを表示できません

答えて

関連する問題