0
Apache Nutchは、WebクローリングのシードURLとしてhttp://rdf.dmoz.org/rdf/content.rdf.u8.gzを推奨しています。しかし、彼らはウェブサイトを閉鎖している。 Webクローリング用の代替シードURLはありますか?Apache Nutch Web CrawlingのシードURL
Apache Nutchは、WebクローリングのシードURLとしてhttp://rdf.dmoz.org/rdf/content.rdf.u8.gzを推奨しています。しかし、彼らはウェブサイトを閉鎖している。 Webクローリング用の代替シードURLはありますか?Apache Nutch Web CrawlingのシードURL
http://commoncrawl.orgをご覧ください。私は彼らが本当に包括的なデータセットを提供していると思います。