1
私はBeautifulSoupを使ってTableau twb XMLファイルを解析し、レポート内のワークシートのリストを取得しています。BeautifulSoup xmlクラス名の値を取得
私が探しています値を保持しているXMLが
クラス=「ワークシート」のすべてを取得し、その後、私は "を取得したいそれらの例から名前値を取得する方法に苦しん<window class='worksheet' name='ML Productivity'>
ですMLの生産性 '値。
コード私はこれまでのところ以下のとおりです。
import sys, os
import bs4 as bs
twbpath = "C:/tbw tbwx files/"
outpath = "C:/out/"
outFile = open(outpath + 'output.txt', "w")
#twbList = open(outpath + 'twb.txt', "w")
for subdir, dirs, files in os.walk(twbpath):
for file in files:
if file.endswith('.twb'):
print(subdir.replace(twbpath,'') + '-' + file)
filepath = open(subdir + '/' + file, encoding='utf-8').read()
soup = bs.BeautifulSoup(filepath, 'xml')
classnodes = soup.findAll('window')
for classnode in classnodes:
if str(classnode) == 'worksheet':
outFile.writelines(file + ',' + str(classnode) + '\n')
print(subdir.replace(twbpath,'') + '-' + file, classnode)
outFile.close()