他のサイトを掻き取る検索エンジン用のビルディングブロックはありますか？

ある特定のものの検索サービスを構築したいと考えています。自由に分類されたサービスや多数の他のサイトを介して、自由にデータを入手することができます。他のサイトを掻き取る検索エンジン用のビルディングブロックはありますか？

ビルディングブロックはありますか？私がカスタマイズできるオープンソースのクローラです。最初からビルドするのではなく、使うことができますか？

このような製品の構築に関するアドバイスはありますか？技術的なものだけでなく、私が考慮する必要のあるプライバシー/法的事項もあります。

など。結果がどこにあるのか分かるように「クレジット」を付ける必要がありますか。

編集：ところで、私はフロントエンドのJSでGWTを使用していますが、バックエンドの言語を決定していません。 PHPかPythonのいずれか。思考？

Pythonに使用できるブロックはほとんどありません。

beautifulsoup [http://www.crummy.com/software/BeautifulSoup/]] HTMLを解析します。それは悪いコードも扱うことができ、そのAPIは簡単なものです... DOMのようなツールよりも優れています。私の友人は、成功した彼の古いphpbbフォーラムを掻き集めるためにそれを使用しました。それはかなり良いドキュメントを持っています。
mechanize [http://wwwsearch.sourceforge.net/mechanize/]は、Webブラウザをシミュレートするhttpクライアントライブラリです。それは、クッキーを処理し、フォームを記入するなど。使い方も簡単ですが、httpがどのように機能するかを理解すれば役立ちます。
http://dev.scrapy.org/ - これは比較的新しいものです。ねじれに基づいた全体的なスクラップフレームワークです。私はそれほど遊んでいない。

私のニーズには最初の2つを使用します。 f.e.ユーザーがデータを入力するのを待つシミュレーションなど、3段階のポーリング用の自動テストツールを入手するには20行のコードが必要です。

2009-06-18 18:32:34 liori

だから私は、「スクリーンスクレーパー」を作成し、HTMLコードを解析して有用な情報を取り出して、それをdbにダンプするという考えをしていると思いますか？それは一般的なプロセスですか？ – marcamillion

私にとっては十分に一般的でした...私が見る唯一の制限は、ウェブブラウザを完全にシミュレートするためのjavascriptもフラッシュエンジンもないことです。あなたはspidermonkeyバインディングでjsを追加することができます - 私はそれを必要としませんでした。 – liori

私はRubyでスクリーンスクレーパーを5分ほどかけて作った。どうやらthis dudeには60秒もかかっています。私はRubyがあなたが探しているものほどスケーラブルか速いかどうかはわかりませんが、概念実証やプロトタイプへのより速いルートは見たことがありません。

シークレットは正確にこの目的のために作られた "hpricot"と呼ばれるライブラリです。

私は、PHPやPython、またはその開発システムや言語で利用可能なものについては何も知らない。

幸運を祈る！

2009-06-18 18:16:01

私は、「スクリーンスクレーパー」を作成し、HTMLコードを解析して有用な情報を取り出し、それをdbにダンプするという考えをしていると思いますか？それは一般的なプロセスですか？ – marcamillion

そうですね。 –

答えて