2012-01-10 3 views
0

私は数日前にスパイダーを構築しています。ウェブページの総重量をバイト単位で測定する方法について研究しています。私の研究を通じて、私はこの問題に遭遇し、最も単純な答えはページのコンテンツの長さを得ることでした。しかし、そこには小さな問題があります。バイト単位のコンテンツ長は、ブラウザの一時フォルダにダウンロードするイメージや、ページのヘッダーからのjavascriptやCSSのリンクについては何も教えてくれません。だから私は、実際にページを測定する方法に関する私の結論をバックアップしました。これは、適切に動作するために必要なすべてのリソースと、バイト数を測定しないために、サーバーからクライアントに送信されるバイト数ドキュメントのみ。 は、だから私はそれがページを訪れたときにウェブブラウザをダウンロードする必要があるリソースのリストを作った:ウェブページにアクセスするときにウェブブラウザがダウンロードする可能性のあるリソースのリストはありますか?

all images <img src="someimages.jpg" alt=”somedecription” > 
all js files <script type="text/javascript" src="somejs.js" ></script> 
all css files <link rel="stylesheet" type="text/css" href="somecss.css"> 
the ico file <link rel="shortcut icon" href="someico.ico"> 

は、ブラウザがページを訪れたときにダウンロードしている任意の他のリソースはありますか?言い換えれば、ウェブページにアクセスしたときにブラウザがダウンロードできるすべてのリソースのリストは何ですか?

+1

動画はどうなっていますか? zipファイル?異なる拡張子を持つ画像(.png、.jpeg、.tiff、.gifなど)? –

+0

もそうzipファイルには、資源であり、download linkを経由してそのアクセスは、またイメージがあまりにもすべて themis

+0

are you going to extract the '