2011-07-11 12 views
3

ファイルを検索してダウンロードするWebクローラを作成しています。私の問題は、すでにローカルドライブにダウンロードされているものと同じファイルをダウンロードしたくないということです。比較するのにMD5ハッシュを使用することは可能ですが、HTTP URLでローカルディスクにダウンロードせずにこれを行うにはどうすればよいですか?Http UrlにあるファイルのMD5ハッシュを生成するには?

このアプローチが間違っている場合。ウェブサーバは、ファイル内のすべてのバイトを必要とし、その後MD5、ファイルのハッシュを計算する第

を共有するサービスのいくつかの並べ替えを持っていなければ、よりよい解決策

答えて

8

にアドバイスをしてください。これは、変更ファイルを取得しないように、1バイトを変更するとハッシュが変更される理由です。

0

リモートファイルに対して実行できる比較は、サイズの比較だけです。残念ながら、これはおそらくコンテンツが同一であるかどうかを判断するには不十分です。

2

ハッシュを生成するには、データが必要です(つまり、何とかダウンロードする必要があります)。

代わりにIf-Modified-Since HTTPヘッダーを使用して調査することをお勧めします(特定のサーバーであればETag/If-None-Match)。

関連する問題