2012-01-17 13 views
1

私はhttp://www.istockphoto.com/のデータを解析するためにPythonコードを書いていますが、検索から生成されたURLが擬似ランダムであるようです。たとえば、「meow」の検索で「写真」を検索した場合、URLは次のようになります。http://www.istockphoto.com/search/text/meow/filetype/photos/source/basic#e2430b3擬似ランダムURL生成

私はソースコードを注意深く見ましたが、PHP/javascriptについてはあまりよく分かりませんどのようにURLが生成されているか)、どのURL行がこのURLを生成しているのか正確には分かりません。誰かが正しい方向に私を指して、コードのどの行がURLを担当しているかを教えてください。

+3

これはおそらく、その検索を参照するためにしばらくの間保持された内部識別子です。擬似ランダムである必要はなく、逐次的でもよい。 – Joey

+0

'# 'の後の部分はおそらくAJAXページネーションです。ページ番号をクリックするたびに変更されます。 –

+0

私が言うことができるものから、#の後の部分は特定の検索ごとに同じ識別子です – Constantino

答えて

4

それは最初の部分は明らかに、検索のためのユニークであるとして、(擬似)ランダムなURLではありません。http://www.istockphoto.com/search/text/meow/filetype/photos/source/basic

最後の部分は、#e2430b3はちょうどページ上のどこかにアンカー、またはいくつかのスクリプトで使用されています。 この部分を除いてurlを入力することができ、同じように動作するため、クエリでは使用されません。

この部分は、おそらくサーバーによってキャッシュ識別子として使用され、繰り返し要求を高速化します。

+0

結果の取得には#の後に最後の部分は必要ないとわかりました。しかし、もし結果の他のページに行きたいなら、私はこの部分が必要です。最終的には、どれだけの数があっても、すべての検索結果のすべてのURLにアクセスできるようになります。これのために、私は#の後の部分が必要だと思う。何かご意見は? – Constantino

+0

実際にこのウェブサイトは良いページを表示するために多くのJavaScriptを使用しており、それがなければ完全に機能しません!あなたが望むことをするのは難しく、たとえそれをやることができたとしても、ウェブサイトのマイナーチェンジはあなたのプログラムを壊すでしょう。ウェブサイトに写真にアクセスするためのAPIがあるかどうかを確認してください。これは簡単な方法です。 – Geoffroy

関連する問題