2012-02-23 16 views
-1

私は、以下の例のようなものを含む約1000ページをローカルにディスクに保存しています。Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか?

<html> 
<body> 
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li> 
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li> 
</body> 
</html> 

私は、文字列Daveは3行目をfromt抽出し、ユーザー名のリストにそれをロードする方法を考え出す助けが必要です。 また、4行目から00000001を抽出してUserIDリストにロードする必要があります。

助けてください、ありがとう...

+0

「データマイニング」というタグを削除しました。ここでは高度な統計分析は行われず、「情報抽出」のみが行われます。 –

+0

[HTMLをPython 3で解析するためのベストライブラリとサンプル?](http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example) –

+0

[lxml](http://lxml.de)も素晴らしいです。 –

答えて

関連する問題