2017-04-02 6 views
0

私は、以下の非常にダンピングされたパーサーに必要なものを持っています。私はパラメータとしてHTMLページ(例:http://www.dictionary.com/browse/example)へのURLを取り込み、このパーサを使用してすべてのデータを表示するメソッドを作成したいと思います。私は誰かが私に解決策を与える必要はありません。しかし、アドバイスをいただければ幸いです。ありがとうございました。Pythonでhtml.parserを使用して特定のHTMLリンクからデータを抽出するにはどうすればよいですか?

from html.parser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_data(self, data): 
     print("Encountered some data :", data) 

parser = MyHTMLParser() 
parser.feed('<html><head><title>Test</title></head>' 
      '<body><h1>Parse me!</h1></body></html>') 
+0

https://docs.python.org/2/howto/urllib2.html#fetching-urlsこれで問題は解決しますか? –

+0

それはかなり役に立ちました。しかし、Python 2以来、このモジュールには大きな変更がありました。私はPython 3.6.1を使用しています。好奇心が強い場合は、以下の私の解決策をチェックしてください。ご協力ありがとうございました。 –

答えて

0

これは、URLからデータを抽出する方法です(この場合はhttp://python.org/)。

from html.parser import HTMLParser 
from urllib.request import urlopen 

class MyHTMLParser(HTMLParser): 
    def handle_data(self, data): 
     print("Encountered some data :", data) 

parser = MyHTMLParser() 
html = urlopen('http://python.org/') 
thing = html.read() 
parser.feed(thing.decode("utf-8")) 
関連する問題