私は、以下の例のようなものを含む約1000ページをローカルにディスクに保存しています。Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか?
<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>
私は、文字列Daveは3行目をfromt抽出し、ユーザー名のリストにそれをロードする方法を考え出す助けが必要です。 また、4行目から00000001を抽出してUserIDリストにロードする必要があります。
助けてください、ありがとう...
「データマイニング」というタグを削除しました。ここでは高度な統計分析は行われず、「情報抽出」のみが行われます。 –
[HTMLをPython 3で解析するためのベストライブラリとサンプル?](http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example) –
[lxml](http://lxml.de)も素晴らしいです。 –