2011-07-07 6 views
0

これはSolr初心者の質問ですが、Solrの仕組みやプロジェクトに適しているかどうかを理解することは非常に重要です。元の文書への参照は保持されていますか?

MS-OfficeのドキュメントやPDFなどのバイナリドキュメントのインデックスを作成したいと考えています。私はSolrがこれらの文書の内容を索引付けできることを理解しており、結果として指定した値とフィールドを取得するための照会を作成できます。私の質問は、スキャンされた後のPDF(または任意のドキュメント)の処理です。それは実際に保存されているか、完全に破棄されていますか?場所(パス)をsolrから戻すか、文書を提出する際にこの情報を渡す必要がありますか?

誰かが私にこのことを理解してもらえますか?

答えて

0

基本的に必要なものはすべて索引付けすることができ、SOLRでは索引を検索して結果を返すことができます。たとえば、Nutchを使用してWebサイトのインデックスを作成し、データをデータベースから取り出してSOLRインデックスを作成する自作のGroovyスクリプトを用意しています。

重要な部分は、インデックスの構築方法です。ファイルにリンクできるようにURLやその他のリソースロケータを指定すると、結果ペイロードにその情報が返されます。

関連する問題