せずに、ウェブサイトのすべてのURLを一覧表示することは、私が個別に以下のURLのそれぞれにアクセスすることができます。http://www.example.com/{.*}.html
パイソン:インデックス
メインページhttp://www.example.com
へのアクセスが何らかの形で制限されていると私は表示されたエラーページにリダイレクトしていますが。 Erreur 403 - Refus de traitement de la requête (Interdit - Forbidden)
。
そのドメインでホストされているHTMLページのすべてのURLを一覧表示する方法はありますか?
私はscrapy' 'と試みたが、いずれかの項目をスクラップことができませんでした。 DEBUG:Telnetコンソールは、127.0.0.1:6023を受信しています。 [scrapy] DEBUG:クロール済み(403)(referer:なし)['partial '] [scrapy] DEBUG:レスポンスを無視する<403 http://www.example.com>:HTTPステータスコードが処理されないか許可されません。' –
禁止されたサイトにアクセスすることはできません(エラー403)。あなたは、http://www.example.com/index.htmlや、そこにたくさんのリンクがある他のサイトから始める必要があります。クロールは再帰的にウェブサイトのすべてのリンクに行きますが、依然として禁止サイトにアクセスすることはできません。 – Brian