ウェブクロールとrobots.txt

サイトをダウンロードするためにwgetを使用しました。ウェブクロールとrobots.txt

のwget -r http://www.xyz.com

I）これはの.cssファイル、の.jsファイル、およびのindex.php及び画像img1.jpgを返し

II）ただし、xyz.comの画像があります。私はwww.xyz.com/Img2.jpgとタイプしたので、

イメージを手に入れました。

III）しかしのindex.php単一の画像を指し、即ちimg1.jpg。

ロボットファイルが許可しない含まれていること、それに伴うIV）
：

ではありませんxyz.comの下にあるすべてのものを返すために、コマンドラインでなされるべきでは何の変化

は、で参照をindex.phpですが、ディレクトリには静的です。

出典

2011-06-29 gir3191

推測が不足しているサーバー上のリソースを知る方法はありません。 – Quentin

できません。 wgetには、ファイルへのリンクがない限り、ディレクトリ内の他のファイルについてはどのように知っていますか？

出典

2011-06-29 12:06:58 nfechner

True ...私の認識は、デフォルトでは、リンク先ページが「index.php」または「index.html」であるということです。だから、wgetは「index.php」をスキャンして、参照する画像（ファイル）のみを返します。「xyz.com」の下のどこにも参照されていないすべての画像をプルダウンする方法はありますか？ – gir3191

ウェブサーバーがそのディレクトリ内のファイルのリストを提供するように設定されている場合（通常はindex.htmlファイルを含まない） – nfechner

リストディレクトリが有効になっていて、 – Fredrik

ウェブクロールとrobots.txt

答えて

関連する問題