私はPythonでファイルを読み込んでおり、最後の500バイト分の識別子をファイルに作成するという問題があります。私は識別子がそのチャンク内の同じ正確なバイトを共有するすべてのファイルで同じであることを望みますが、実際のバイトは任意の順序である可能性があります。あるバイトが見つからないか追加された場合、私はその識別子を別にしたいと思います。私はスピードが重要であるため、人々が持つ可能性のある設計や実装アドバイスを探しています。Pythonでランダムな順序で同じデータに対して同じハッシュIDを作成するにはどうすればよいですか?
ありがとうございます。
私も専門家ではありませんが、多分コレクションを作ろうとしています。もちろん、1バイトが欠落していても同じバイトが追加された場合、同じハッシュが得られます。 –
バイトの並べ替えは効率的で簡単な方法です。バイトをソートし、MD5/CRC-32/Adler-32 /何でも処理します。 –