2009-07-06 13 views
0

精神的な団体の特定の文献/引用/ etcのオンライン検索を作成しようとしています.と検索できるアイテムの数(主にPDF、HTML、またはプレーンテキスト)は限られていますが、 包括的な検索フィルタ(Kayak.comスタイル)を提供したいと考えていました。フィルターを使用して検索エンジンを作成するにはどうすればよいですか?

これは、著者名、ソースの種類(書籍、音声、見積もりなど)、 の場合、およびどこの他のフィルタでフィルタリングするのが簡単な方法でデータを整理する必要があることを意味します。 。つまり、各文献には、この「追加情報」が結びついている必要があります。

私の質問は、この検索エンジンを構築するにはどうすればいいですか?私はLucerineについて聞いたことがあります。 は最近、検索用の.NETライブラリであるSearcharooを発見しました。このライブラリは、ローカルディレクトリにあるすべてのPDFファイルのインデックスを作成します。

Searcharooを使用するか、ファイルパスを保存する独自のデータベースを作成してPDFファイルのテキストを含む列 をクエリする必要があるのでしょうか。 Searcharooなどを使用してもいいですか? DBに格納されている追加情報で各インデックスファイルにタグを付けることができますか?あるいは、私はまったく別のアプローチを取るべきですか?私はこの上の任意の入力をいただければと思います

...

ありがとう!

答えて

0

私はCouchDBがこのために設計されたと聞いたことがありますが、正直なところ私はこれまで使用したことがありません。

0

私はLucene.NETを使用して、追加のメタデータを含むフルテキストインデックスを作成しました。 Javaポートの使用に気をつけていないのであれば、安定していて、すばやく、合理的に文書化されています。

関連する問題