2012-01-21 10 views
2

私はJackrabbit 2.3.6を設定しており、バイナリファイル(PDF、 ODT)のインデックスを作成する必要があります。だから、私はをに設定しました。 http://wiki.apache.org/jackrabbit/Searchに従っています。しかし、私がリポジトリにファイルを挿入し、フルテキスト 検索しようとすると、結果は返されません。 Jackrabbit deprecated SearchIndex textFilterClasses属性

は、それから私は、ログに警告気づい:

SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor

どのように私は、インデックスのバイナリデータへSearchIndexを設定する必要がありますか?返信用

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> 
    <param name="path" value="${rep.home}/repository/index"/> 
    <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/> 
    <param name="supportHighlighting" value="true"/> 
</SearchIndex> 

感謝を:今は廃止されており、前述の警告に応じて動作しませんでした、このようにそれをやっている

答えて

1

これはメーリングリストJackrabbitのユーザからのマーク・ハーマンから同様の質問への答えです:

どのようにベースのITが決定 私は専門家ではないが、私はJRテキストを抽出するためティカを使用していることを知っているものを、とjcr:mimeTypeプロパティを参照してください。 mimetypeを指定しないと、抽出する方法がわかりません(ただし、私は を練習として推奨しません)。私はあなたにあなたが望むかもしれない ティカの設定でJRを提供する方法があると信じています。編集:ありません。それはハードコードされています。

また、あなたが luceneのでインデックス化し、どのようにする内容にいくつかのルールを設定することができリポジトリ/ワークスペース xmlファイルにインデックスの設定を指定することができます。

0

Tika解析を有効にするために何もする必要はありません。 mimetypeプロパティを追加する限り、ドキュメントの内容を自動的に解析して索引付けします(Tikaの特定のバージョンでサポートされているフォーマットである限り)。

これは誰かを助けることを望みます。 Jackrabbitのドキュメントは実際にはまばらです。 Apache Oakがそれを置き換えるように設定されているようだが、どちらも役に立たない。