imagenetファイル(hereは車の画像の例です)から提供されたURLからwgetコマンドを使用してたくさんのファイルをダウンロードしました。しかし、私は私のファイルをチェックすると、私は多くのファイルが見つかりました、間違った拡張子があります。たとえば、ファイルの中で、拡張子が.jpgのファイルは実際にはテキストファイルです。そして、--adjust-extensionは.htmlと.cssファイルでのみうまくいくかもしれないことに気付いています。シェルファイルの拡張子を修正して複製を取り除く方法
私の質問はそれらのファイルです:1.どのようにファイルの拡張子(.jpg、.txt、.png、.htmlなど)を回復することができますか? 2.いくつかの画像が複数回ダウンロードされることがあります。重複を取り除くにはどうすればいいですか?
もしPythonで実行できるのであれば、それでも問題ありません。 ありがとうございます。
ファイル拡張子が壊れている場合は、適切なファイルタイプを調べるためにUNIXプログラム 'file'を使用できます。使い方は、あなたのシェルから 'man file'を実行してください。 –
コンテンツのチェックサムを使用することも、2ステップのロケットを作成して最初にファイルサイズを確認し、2つの一致がコンテンツのチェックサムを行い、一致するかどうかを確認することもできます。 – Torxed