インターネットをクロールする

特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。インターネットをクロールする

クローラを実装するにはどうすればよいですか？

私はグラブの聞いたことがある（grub.org - >ウィキア）とHeritix（http://crawler.archive.org/）

があり、他はありますか？

どのような意見がありますか？

-Jason

2009-04-07 Toddly

私はWebbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURLと呼ばれるお勧めすることができます件名に良い本があります。

出典

2009-04-08 00:07:21

はい！これは私のためにすべて始まった本です。 – KJW

ウェブクローラーの部分が作業の最も簡単な部分になると思います。難しい部分は、訪問するサイトと、訪問したいサイトのイベントを発見する方法を決定することです。おそらく、GoogleまたはYahoo APIのいずれかを使用して、必要なデータを取得する方法について見たいと思うかもしれません。彼らはすでにインターネット上の多くのページをクロールする作業を行ってきました。あなたは、とにかく、あなたが探しているイベントを得るためにデータをふるい落とすという非常に厳しい問題に集中できます。

出典

2009-04-08 01:01:17

は、言語固有の要件はありますか？、

私は

最後に、個人的な実験のためにしばらく前に、.NETチルカットスパイダーのLibのためで遊んでいくつかの時間を費やして、私はそこにクモLibsのを確認し、ライセンス供与されていますフリーウェア、（私の知る限りAltho開いていないソース:(）として

は、彼らは、PythonのLibのに。

http://www.example-code.com/python/pythonspider.asp #Pythonを持っているようだ http://www.example-code.com/csharp/spider.asp＃.net

出典

2009-04-08 02:07:24 Fusspawn

何をしても、良い市民であり、robots.txtファイルに従ってください。ウィキペディアのページの参照先をfocused crawlersにチェックしてください。ちょうど私がTopical Web Crawlers: Evaluating Adaptive Algorithmsの著者の1人を知っていることに気づいた。小さな世界。

出典

2009-04-08 02:49:04 tvanfosson

インターネットをクロールするとタスクが開始されることがわかった場合、RSS aggregatorを構築し、craigslistやupcoming.orgのような一般的なイベントサイトのRSSフィードを購読することを検討してください。

これらのサイトのそれぞれは、ローカライズされた検索可能なイベントを提供します。 RSSはウェブを構成するすべての不正なHTMLにする代わりに、（いくつかの）標準化されたフォーマットを提供します...

ROME（java）のようなオープンソースのライブラリは、RSSフィードの消費に役立ちます。

出典

2009-04-08 05:16:23

Kevin's RSSフィードの提案に続いて、Yahoo pipesをチェックしてみるとよいでしょう。まだ試したことはありませんが、いくつかのRSSフィードを処理し、WebページやRSSフィードを生成できると思います。

出典

2009-05-14 21:40:24

大きなものにはパイプを使用しないでください。非常に信頼性が高く、かなり遅いわけではありません。 – mixdev

このトピックの優れた紹介文は、Introduction to Information Retrieval（全文はオンラインで入手できます）です。 Web crawlingの章がありますが、もっと重要なことは、クロールされたドキュメントでやりたいことの基礎を提供することです。

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

出典

2009-05-14 21:59:40

すばらしい本。 –

Scrapyをチェックしてください。 Pythonで書かれたオープンソースのWebクローリングフレームワークです（私は、ダウンロードしたページを提供する代わりにDjangoに似ていると聞いてきました）。それは容易に拡張可能で、分散/並列であり、非常に有望です。

私はスクラップされたコンテンツなどから正しいデータを抽出し、データベースに挿入するような、より些細なことのために自分の強みを保存することができます。実際のスケール指示クローラを書く

出典

2009-06-09 21:08:36 hannson

Nutch Crawler

出典

2009-06-15 19:45:51 bill

非常に困難な作業です。私は仕事でそれを実装し、しばらくそれを維持した。あなたが1つを書いて問題を打つまでは、あなたが存在するかどうかわからない多くの問題があります。特にCDNとサイトのフレンドリーなクロールを扱う。適応アルゴリズムは非常に重要です。そうしないと、DOSフィルタが動作しなくなります。実際には、あなたのクロールが十分に大きければ、あなたはそれを知らなくても何とかします。考える

もの：

ことができ、スループットを除いては何？
サイトの停止をどのように処理しますか？
ブロックされた場合はどうなりますか？
ステルスクロール（contreversial、実際には非常に難しい）に従事したいですか？

実際に書いたことがあるのですが、私がこれまで周りを回っていれば、適切なものを作ることは人よりもはるかに厳しいので、クローラの建設についてオンラインにするかもしれません。ほとんどのオープンソースクローラーはほとんどの人にとって十分に機能しますので、もしあなたがそれらの1つを使用することをお勧めします。フィーチャー/プラットフォームの選択肢はどれですか？

出典

2009-07-31 21:52:54

インターネットをクロールする

答えて

関連する問題