特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。インターネットをクロールする
クローラを実装するにはどうすればよいですか?
私はグラブの聞いたことがある(grub.org - >ウィキア)とHeritix(http://crawler.archive.org/)
があり、他はありますか?
どのような意見がありますか?
-Jason
特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。インターネットをクロールする
クローラを実装するにはどうすればよいですか?
私はグラブの聞いたことがある(grub.org - >ウィキア)とHeritix(http://crawler.archive.org/)
があり、他はありますか?
どのような意見がありますか?
-Jason
私はWebbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURLと呼ばれるお勧めすることができます件名に良い本があります。
は、言語固有の要件はありますか?、
私は
最後に、個人的な実験のためにしばらく前に、.NETチルカットスパイダーのLibのためで遊んでいくつかの時間を費やして、私はそこにクモLibsのを確認し、ライセンス供与されていますフリーウェア、 (私の知る限りAltho開いていないソース:()として
は、彼らは、PythonのLibのに。
http://www.example-code.com/python/pythonspider.asp #Pythonを持っているようだ http://www.example-code.com/csharp/spider.asp#.net
何をしても、良い市民であり、robots.txtファイルに従ってください。ウィキペディアのページの参照先をfocused crawlersにチェックしてください。ちょうど私がTopical Web Crawlers: Evaluating Adaptive Algorithmsの著者の1人を知っていることに気づいた。小さな世界。
インターネットをクロールするとタスクが開始されることがわかった場合、RSS aggregatorを構築し、craigslistやupcoming.orgのような一般的なイベントサイトのRSSフィードを購読することを検討してください。
これらのサイトのそれぞれは、ローカライズされた検索可能なイベントを提供します。 RSSはウェブを構成するすべての不正なHTMLにする代わりに、(いくつかの)標準化されたフォーマットを提供します...
ROME(java)のようなオープンソースのライブラリは、RSSフィードの消費に役立ちます。
Kevin's RSSフィードの提案に続いて、Yahoo pipesをチェックしてみるとよいでしょう。まだ試したことはありませんが、いくつかのRSSフィードを処理し、WebページやRSSフィードを生成できると思います。
大きなものにはパイプを使用しないでください。非常に信頼性が高く、かなり遅いわけではありません。 – mixdev
このトピックの優れた紹介文は、Introduction to Information Retrieval(全文はオンラインで入手できます)です。 Web crawlingの章がありますが、もっと重要なことは、クロールされたドキュメントでやりたいことの基礎を提供することです。
Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg
すばらしい本。 –
Scrapyをチェックしてください。 Pythonで書かれたオープンソースのWebクローリングフレームワークです(私は、ダウンロードしたページを提供する代わりにDjangoに似ていると聞いてきました)。それは容易に拡張可能で、分散/並列であり、非常に有望です。
私はスクラップされたコンテンツなどから正しいデータを抽出し、データベースに挿入するような、より些細なことのために自分の強みを保存することができます。実際のスケール指示クローラを書く
非常に困難な作業です。私は仕事でそれを実装し、しばらくそれを維持した。あなたが1つを書いて問題を打つまでは、あなたが存在するかどうかわからない多くの問題があります。特にCDNとサイトのフレンドリーなクロールを扱う。適応アルゴリズムは非常に重要です。そうしないと、DOSフィルタが動作しなくなります。実際には、あなたのクロールが十分に大きければ、あなたはそれを知らなくても何とかします。考える
もの:
実際に書いたことがあるのですが、私がこれまで周りを回っていれば、適切なものを作ることは人よりもはるかに厳しいので、クローラの建設についてオンラインにするかもしれません。ほとんどのオープンソースクローラーはほとんどの人にとって十分に機能しますので、もしあなたがそれらの1つを使用することをお勧めします。フィーチャー/プラットフォームの選択肢はどれですか?
はい!これは私のためにすべて始まった本です。 – KJW