7
PHPクロールを使用しているときに循環リンクトラップにトラップされないようにするにはどうすればよいですか?phpcrawlで円形ボットトラップを回避するにはどうすればよいですか?
PHPクロールを使用しているときに循環リンクトラップにトラップされないようにするにはどうすればよいですか?phpcrawlで円形ボットトラップを回避するにはどうすればよいですか?
訪問したURLを何らかの並べ替えで保存している場合は、URLが既に訪問されているかどうかを確認することができます。
このため、phpcrawlには組み込み機能はありませんか?私は大規模なクロールのためにメモリーをすばやく使い果たしてしまったと思っていますが、もう一度大規模にクロールするためのより強力なソフトウェアに移行する必要があります。 –
RAMは安い(一般的に言えば)。それは、http://php.net/SplFixedArrayが使用されるかもしれないと言われています。 http://stackoverflow.com/questions/10434913/accessing-big-arrays-in-phpにはこれについての読者がいくつかあります。クロール時間が長くても問題がない場合は、ファイルシステムを使用して、各ドメインをjson配列を含むファイルに配置し、そのように処理することもできます。それは遅くなりますが、メモリの消費量は少なくなります。 –