特定のファイル名を探しているディレクトリを読んでいます。比較のために、すべてのファイル名から文書タグ'.xml'
を削除できます。問題は、タイトルの最後に約10%の人が6桁のタイムスタンプを持つことです。正規表現:ファイル名からタイムスタンプを削除
file_list = os.listdir(directory_address)
for entry in file_list:
re.sub('\.xml$','', entry).upper()
#file name examples
filename_1 = 'normal_filename'
filename_2= 'another_normal_filename_A23'
filename_3 = 'stamped_file_name_085373'
私のプログラムは、どのファイルにタイムスタンプが付いているかわかりません。タイムスタンプのないファイルの中には、自然に1つまたは2つの数字で終わるものもあります。私の知る限り、スタンプされたファイル名だけがこの形式で終了します_######
。
regexを使用して、末尾にちょうど6桁の数字が付いたファイル名を認識し、その数字を文字列から削除して比較しますか?
ありがとうございました! –