Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか？

-1

私は、以下の例のようなものを含む約1000ページをローカルにディスクに保存しています。Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか？

<html> 
<body> 
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li> 
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li> 
</body> 
</html>

私は、文字列Daveは3行目をfromt抽出し、ユーザー名のリストにそれをロードする方法を考え出す助けが必要です。また、4行目から00000001を抽出してUserIDリストにロードする必要があります。

助けてください、ありがとう...

出典

2012-02-23 nebulus

「データマイニング」というタグを削除しました。ここでは高度な統計分析は行われず、「情報抽出」のみが行われます。 –

[HTMLをPython 3で解析するためのベストライブラリとサンプル？]（http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example） –

[lxml]（http://lxml.de）も素晴らしいです。 –

はhtml.parserモジュール（http://docs.python.org/py3k/library/html.parser.html#module-html.parser）に見て。

出典

2012-02-23 02:38:34 pycoder112358

あなたはMiniDom使用してXHTML/XMLを解析することができます。また

、PythonはHTMLParserが組み込まれています：

http://docs.python.org/library/htmlparser.html

出典

2012-02-23 02:35:21

Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか？

答えて

関連する問題