2011-06-29 4 views
0

サイトをダウンロードするためにwgetを使用しました。ウェブクロールとrobots.txt

のwget -r http://www.xyz.com

I)これはの.cssファイル、の.jsファイル、およびのindex.php及び画像img1.jpgを返し

II)ただし、xyz.comの画像があります。私はwww.xyz.com/Img2.jpgとタイプしたので、

イメージを手に入れました。

III)しかしのindex.php単一の画像を指し、即ちimg1.jpg

ロボットファイルが 許可しない含まれていること、それに伴うIV)

ではありませんxyz.comの下にあるすべてのものを返すために、コマンドラインでなされるべきでは何の変化

は、で参照をindex.phpですが、ディレクトリには静的です。

+1

推測が不足しているサーバー上のリソースを知る方法はありません。 – Quentin

答えて

5

できません。 wgetには、ファイルへのリンクがない限り、ディレクトリ内の他のファイルについてはどのように知っていますか?

+0

True ...私の認識は、デフォルトでは、リンク先ページが「index.php」または「index.html」であるということです。だから、wgetは「index.php」をスキャンして、参照する画像(ファイル)のみを返します。「xyz.com」の下のどこにも参照されていないすべての画像をプルダウンする方法はありますか? – gir3191

+0

ウェブサーバーがそのディレクトリ内のファイルのリストを提供するように設定されている場合(通常はindex.htmlファイルを含まない) – nfechner

+0

リストディレクトリが有効になっていて、 – Fredrik

関連する問題