2012-11-27 9 views
6

私はApache Solrでアラビア語のPDFを検索しようとしています。この問題は、Tikaが(右から左へ)ではなく、逆順(左から右)でPDFにインデックスを付けることにあります。アラビア語のためのSolr PDFの

私はここに、この問題についての言及を発見した

:しかし、私はPDFBOXの最新バージョンを含める方法がわからない

をか私のapache solrのICU4J。私のApache Solr Contrib/extraction/libフォルダには、pdfbox-1.6.0.jaricu4j-4.8.1.1.jarが含まれています。上記のファイルを削除し、それらのプロジェクトページの最新のライブラリに置き換えることは、TIKAにそれらを使用させるのに満足できるものでしょうか?

Javaサーブレットに関するこれまでの経験はありませんので、説明してください。ありがとう!

答えて

0

あなたの質問のタグから、Drupalを使用してApache Solrに接続していると仮定します。 Tikaは、バイナリ文書を送信するときにSolr内から実行できます。また、Solrに文書を送信する前に使用することもできます。 Drupal Solr Attachmentsモジュールには、「Tika(ローカルJavaアプリケーション)」の設定があります。 2番目のリンクでは、Solr Attachmentsモジュールにパッチを適用してTikaの代わりにPDFBoxを使用して、バイナリファイルを解析してSolrに送信しました。 Drupalを使用していない場合は、同様のアプローチを試してください。

関連する問題