1
ファイル名を比較して重複ファイルを探しています。Pythonの文字列比較
ただし、エスケープされた文字を含むos.walk
によって返されるパスが見つかりました。たとえば、あるファイルではstructure in the Earth\'s core.pdf
、別のファイルではstructure in the Earth\xe2\x80\x99s core.pdf
が得られます。
In [1]: print 'structure in the Earth\'s core.pdf\nstructure in the Earth\xe2\x80\x99s core.pdf'
structure in the Earth's core.pdf
structure in the Earth’s core.pdf
In [2]: 'structure in the Earth\'s core.pdf' == 'structure in the Earth\xe2\x80\x99s core.pdf'
Out[2]: False
これらのケースではどうすれば対処できますか?ただ、コメントに反応してQを明確にする
==== 、で区切って他の
- 1つのファイル名のような重複したファイルのための他の状況もあります
-
:
- 1 /中国語日本語の単語を含むファイル名と数字と日本語/中国語の単語で構成される他...によって他しばらく
これらは2つの異なる文字です... '' 'は' ''と等しくありません。 1つを他のものに置き換えるか、または特定の文章の英数字のみを比較します。 – kaza
同じ_general_ビジュアルアピアランスを作成するために異なるエンコードを使用しているため、* same *ではありません。 c.f. [this](https://stackoverflow.com/questions/32761954/how-to-decode-an-ascii-string-with-backslash-x-x-code)リンクも同様です。 @bulbusのような別の文字です。それを修正することは、知的には類似しているが、文字通り同じではないことを何通りも言えるようになる可能性のある方法についての虫の蔓延を引き起こすため、複雑です。 –
「辞書」表現に煮詰めて、比較する前に英数字以外のものをすべて取り除き、レポートを書くことがあります。 –