私はウェブページを解析し、ウェブページ内の単語や単語を検索するウェブページ「クローラ」を作っています。ここで私の問題が発生し、私が探しているデータが解析されたWebページに含まれています(特定の単語をテストとして使用して実行しました)が、探しているデータが見つからなかったと言います。python htmlパーサのデータが見つかりません
from html.parser import HTMLParser
from urllib import *
class dataFinder(HTMLParser):
def open_webpage(self):
import urllib.request
request = urllib.request.Request('https://www.summet.com/dmsi/html/readingTheWeb.html')#Insert Webpage
response = urllib.request .urlopen(request)
web_page = response.read()
self.webpage_text = web_page.decode()
return self.webpage_text
def handle_data(self, data):
wordtofind = 'PaperBackSwap.com'
if data == wordtofind:
print('Match found:',data)
else:
print('No matches found')
p = dataFinder()
print(p.open_webpage())
p.handle_data(p.webpage_text)
しかし、それは今では動作しません、私は、給紙方法を使用して開いたWebページ機能せずにプログラムを実行しているし、それがデータを動作し、検索します。
この問題を解決する上で任意の助けが
ウェブサイトから抽出することは、正確には何ですか? hrefタグからのリンク? –
hrefタグでもpタグでも、ページ内からテキストを検索しようとしています – S0lo