私はPyQt5を使用してWebページをスクラップしています。これはhttp:// URLには効果的ですが、https:// URLには効果がありません。javascript WebページのPythonスクレイピングがhttpsページでのみ失敗する
私のスクリプトの関連部分は以下の通りです:セキュアなページのために
class WebPage(QWebPage):
def __init__(self):
super(WebPage, self).__init__()
self.timerScreen = QTimer()
self.timerScreen.setInterval(2000)
self.timerScreen.setSingleShot(True)
self.timerScreen.timeout.connect(self.handleLoadFinished)
self.loadFinished.connect(self.timerScreen.start)
def start(self, urls):
self._urls = iter(urls)
self.fetchNext()
def fetchNext(self):
try:
url = next(self._urls)
except StopIteration:
return False
else:
self.mainFrame().load(QUrl(url))
return True
def processCurrentPage(self):
url = self.mainFrame().url().toString()
html = self.mainFrame().toHtml()
#Do stuff with html
print('loaded: [%d bytes] %s' % (self.bytesReceived(), url))
def handleLoadFinished(self):
self.processCurrentPage()
if not self.fetchNext():
qApp.quit()
、スクリプトが空白のページを返します。戻ってくる唯一のHTMLは<html><head></head><body></body></html>
です。
私は少し迷っています。保護されたURLを処理する際に欠けている設定がありますか?
「セキュリティで保護されたページの場合、スクリプトは空白のページを返します」という意味ですか? – Adam
ああ、そうです。ありがとう、私はそれを見つけたはずです。 – samg86
@ samg86。私はこれを再現することはできません。問題の原因となるいくつかのサンプルの安全なURLを入力してください。 – ekhumoro