ある特定のものの検索サービスを構築したいと考えています。自由に分類されたサービスや多数の他のサイトを介して、自由にデータを入手することができます。他のサイトを掻き取る検索エンジン用のビルディングブロックはありますか?
ビルディングブロックはありますか?私がカスタマイズできるオープンソースのクローラです。最初からビルドするのではなく、使うことができますか?
このような製品の構築に関するアドバイスはありますか?技術的なものだけでなく、私が考慮する必要のあるプライバシー/法的事項もあります。
など。結果がどこにあるのか分かるように「クレジット」を付ける必要がありますか。
編集:ところで、私はフロントエンドのJSでGWTを使用していますが、バックエンドの言語を決定していません。 PHPかPythonのいずれか。思考?
だから私は、「スクリーンスクレーパー」を作成し、HTMLコードを解析して有用な情報を取り出して、それをdbにダンプするという考えをしていると思いますか?それは一般的なプロセスですか? – marcamillion
私にとっては十分に一般的でした...私が見る唯一の制限は、ウェブブラウザを完全にシミュレートするためのjavascriptもフラッシュエンジンもないことです。あなたはspidermonkeyバインディングでjsを追加することができます - 私はそれを必要としませんでした。 – liori