実際にRSS文書からデータを抽出しようとしています。私はxml docを解析するために次のコードを使用しています。PYTHONのrss xmlファイルの解析
ただし、このドキュメントの作業はありませんhttp://www.mediafire.com/?hptptj8847awnn1助けてください!!
#import easy to use xml parser called minidom:
import xml.dom.minidom as minidom
import csv
def getTags(xml):
"""
Print out all titles found in xml
"""
doc = minidom.parse(xml)
node = doc.documentElement
items = doc.getElementsByTagName("item")
titles = []
for item in items:
titleObj = item.getElementsByTagName("title")[0]
titles.append(titleObj)
print len(titles)
x = 0
for x in range(len(titles)):
nodes = titles[x].childNodes
for node in nodes:
if node.nodeType == node.CDATA_SECTION_NODE:
titletxt = node.data
elif node.nodeType == node.TEXT_NODE:
titletxt = node.data
if __name__ == "__main__":
document = 'D2B0918.xml'
getTags(document)
"は動作しません" を定義します。 –
gettags内の行10、 doc = minidom.parse(xml) \tファイル "C:\ Python26 \ lib \ xml \ dom \ minidom.py"、行1918、解析中 戻り値expatbuilder.parse(ファイル) \tファイル "C:¥Python26¥lib¥xml¥dom¥expatbuilder.py"、行924、解析中 結果= builder.parseFile(fp) \tファイル "C:\ Python26 \ lib \ xml \ dom \ expatbuilder.py "、行207、parseFile内 parser.Parse(バッファ、0) \t ExpatError:整形式ではありません(無効なトークン):行2、列573 – ISGAL
2行目、573列目は何ですか? –