検索エンジンとしてウェブサイトの詳細のみを取得する

検索エンジンのようにウェブサイトの詳細を取得する必要があります。私は、サイトの説明、リンク、それらに関するいくつかの情報を必要とし、私のDBにそれを格納します。これを行うためのライブラリがありますか？ウェブページ全体をクロールすることができますが、検索エンジンでクロールされた形式の情報のみが必要です。検索エンジンとしてウェブサイトの詳細のみを取得する

おかげで、言語
カルティク

出典

2011-07-05 Karthik

nutchを見てください。このSOクエリは便利かもしれません。http://stackoverflow.com/questions/223536/how-do-we-create-a-simple-search-engine-using-lucene-solr-or-nutch – Medorator

？ Webページのコンテンツを読むためのAPIとバインディングが存在します。あなたは新しい '検索エンジン'を作成したい場合、タスクの規模を理解していますか？あなたの質問は非常に一般的なものであり、以外に与えられるアドバイスがたくさんありません。

あなたはすぐにあなたのIPがでブロックされますよ、リクエストでサーバーをハンマーしないでくださいrobots.txtの

を尊重感覚的なシステム管理者。

出典

2011-07-05 11:27:03 Raoul

私はJavaでそれを必要とします。それはカスタムWeb検索APIを好むべきです。 Googleが提供するJSON/Atomカスタム検索APIを使用できますが、1日あたり100件の検索クエリに限定されています。 – Karthik

検索エンジンとしてウェブサイトの詳細のみを取得する

答えて

関連する問題