2011-07-07 2 views
0

私はこの制約で検索エンジンをセットアップする方法を知りました:URLを参照せずに保存されたデータをユーザーが検索できるようにするにはどうすればよいですか?

ウェブサイト(交通量の少ないウェブサイト)では、ニュースコンテンツは保存されていますが、これらのコンテンツが実際にどこに表示されるかはわかりません。 URLを推測することはできません。

この機能を実現するためにどのような技術を使用する必要がありますか?

私は検索中にウェブサイト全体をクロールする検索エンジンが必要でしょうか? sphynx/lucene/solrが適切かどうか誰にでも教えてもらえますか?

答えて

1

どの検索エンジンを選択しても、十分な情報を提供する必要があります。したがって、あなたの制約では、世界中の検索エンジンを使用することはできません。

ドキュメントまたはページをインデックスに送信するときには、実際のコンテンツの表示先となるURLを作成するのに十分な情報も提供する必要があります。

Luceneは、Solrによって使用される検索APIです。どちらも高品質のApacheプロジェクトであり、どちらを選択するかは要件によって異なります。 Solrは、ファセットされたseachやそのすべての操作のためのREST APIなど、Luceneに幅広い機能を提供します。

+0

私はあなたに同意していません。ページ全体をクロールする検索エンジンについてはどうでしょうか。そうすることで、URLを知ることができます。 1日に1回ウェブサイト全体をクロールするタスクを作成することで、検索データベースの更新を維持するのに役立ちます。 –

+0

ページ全体をクロールすると、十分な情報が得られます**。あなたの制約は「URLを推測できません」* –

+0

Johanは正しいです、ウェブページをクロールすることは、ドキュメントの参照がURLであることを意図しています... –

関連する問題