Pythonの教祖は、リストからすべてのテキストを抽出する必要があります。下のURLはパターンのサンプルです。私はまた、スクリプトがフォルダ内のすべてのファイルをループできるようにしたい。Python - 複数のファイルから複数の文字列のテキストを抽出する
.....
.....
<List>Product Line</List>
<URL>http://teamspace.abb.com/sites/Product</URL>
...
...
<List>Contact Number</List>
<URL>https://teamspace.abb.com/sites/Contact</URL>
....
....
の予想される出力
<List>Product Line</List>
<URL>http://teamspace.abb.com/sites/Product</URL>
<List>Contact Number</List>
<URL>https://teamspace.abb.com/sites/Contact</URL>
私はリストから始まるすべてのキーワードを抽出し、ループにできたフォルダ内のすべてのファイルとスクリプトを開発してきましたが、URLを含むように私はできません。あなたの助けが大変ありがとうございます。
# defining location of parent folder
BASE_DIRECTORY = 'C:\D_Drive\Projects\Test'
output_file = open('C:\D_Drive\Projects\\Test\Output.txt', 'w')
output = {}
file_list = []
# scanning through sub folders
for (dirpath, dirnames, filenames) in os.walk(BASE_DIRECTORY):
for f in filenames:
if 'xml' in str(f):
e = os.path.join(str(dirpath), str(f))
file_list.append(e)
for f in file_list:
print f
txtfile = open(f, 'r')
output[f] = []
for line in txtfile:
if '<List>' in line:
output[f].append(line)
tabs = []
for tab in output:
tabs.append(tab)
tabs.sort()
for tab in tabs:
output_file.write(tab + '\n')
output_file.write('\n')
for row in output[tab]:
output_file.write(row + '')
output_file.write('\n')
output_file.write('----------------------------------------------------------\n')
raw_input()
入力と期待される出力は同じように見える
かを。あなたの質問を改善してみてください – fferri
なぜ車輪を改造するのですか? [xml tree](https://docs.python.org/2/library/xml.etree.elementtree.html)のようなxmlパーサを使用してください。 – dawg
インデントを更新してください。 –