私はさまざまなWebサイトからデータを取得しようとしています。スタックオーバーフローでデータを取得すると、多くの人がこれを示唆しているようにcrawler4jを使用しています。以下は、私の理解/デザインです:データを取得するためのクローラ4Jの効率的な設計
今1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
、あなたは私に知らせてくださいしてくださいすることができ、ステップ1を行うことができるcrawler4J、2と3があります? より良いデザインが利用可能であることを提案してください(利用可能なフィードがないと仮定して) もしそうなら、私にどのようにしたらいいか教えてください。私はcrawler4jを使用しないので、塩の粒で私の意見を取ることがない
おかげ ヴェンカト
こんにちは、入力してください。 – topblog
どんな助力も大歓迎です... – topblog