BeautifulSoupライブラリを使用してPythonでXML文書を解析するときに、私はいくつかの問題に直面しました。私が解析したいXML文書:非標準XML(CDATAタグ)の解析
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>
上記のように、タグは少し奇妙です。私の意見では、その(タグ)はスタンドXMLフォームではありません。このひどいフォームを解析するにはどうしたらいいですか?
ワウ。あなたのkandnessありがとうございます – user513004
UserWarning:BeautifulStoneSoupクラスは非推奨です。それを使用する代わりに、features = "xml"をBeautifulSoupコンストラクタに渡します。 –
BeautifulSoup4を使用するための私の答えを更新しました。 – unutbu