2016-09-05 8 views
-2

私はXenuなどを使用していくつかのクロール方法を知っています。しかし、これを行うためのより良い、よりスマートな方法が必要です。Linuxのクロールサイトマップとページ自体+画像+内部リンク404

私は

  • a)は、ページ自体404
  • のためのサイトマップ
  • チェックに基づいてoourサイトをクロールしたいと思いますか?
  • b)ページ自体にパラメータがない内部リンク404?
  • c)すべての画像:存在しますか?

PHPスクリプトなどを書くことができます。しかし、これを行うのに使うことのできる既製のツール、スクリプト、または多分Curlはありますか?

THX!

答えて

0

StormCrawlerは、主にJavaで実装されているオープンソースのWebクローラーです。サイトマップを処理するので、サイトをクロールして404エラーをチェックすることができます。

+0

Apache。私たちはnginxを実行します。 –

関連する問題