可能性の重複:
Parsing HTML in PythonどのようにしてPythonリストにHTMLリスト項目を抽出できますか?
私は、次のようなHTMLの長い文字列を持っている:
<ul>
<li><a href="https://stackoverflow.com/a/long/link">Class1</a></li>
<li><a href="/another/link">Class2</a></li>
<li><img src="/image/location" border="0">Class3</a></li>
</ul>
それはいくつかのリスト項目(Class8へのClass1)を持っています。私は、
["Class1", "Class2", "Class3"]
などのように、クラス名だけでPythonのリストにしたいと思います。
どうすればいいですか?私はREを使ってみましたが、動作するメソッドを見つけることができませんでした。もちろん、8つのクラスでは手作業で簡単に行うことができますが、データを抽出するためにいくつかのHTML文書があります。
ありがとうございます!すべての行末が同じであれば、あなたの例よりも、ファイルにHTMLのように、その後、何かをはるかに多様性を期待している場合:)
は
http://docs.python.org/library/htmlparser.html –
HTTPのドキュメントをチェックアウト: //stackoverflow.com/questions/3276040/how-can-i-use-the-python-htmlparser-library-to-extract-data-from-a-specific-div-t HTMLParserの例が必要な場合 –
BeautifilSoupによって: 'スープ= BeautifilSoup(HTML); soup2.findAll( "li"、text = True); '、すべてのクラス名を返します。 – kenorb