アラビア語のためのSolr PDFの

私はApache Solrでアラビア語のPDFを検索しようとしています。この問題は、Tikaが（右から左へ）ではなく、逆順（左から右）でPDFにインデックスを付けることにあります。アラビア語のためのSolr PDFの

私はここに、この問題についての言及を発見した

：しかし、私はPDFBOXの最新バージョンを含める方法がわからない

をか私のapache solrのICU4J。私のApache Solr Contrib/extraction/libフォルダには、pdfbox-1.6.0.jarとicu4j-4.8.1.1.jarが含まれています。上記のファイルを削除し、それらのプロジェクトページの最新のライブラリに置き換えることは、TIKAにそれらを使用させるのに満足できるものでしょうか？

Javaサーブレットに関するこれまでの経験はありませんので、説明してください。ありがとう！

出典

2012-11-27 perpetual_dream

あなたの質問のタグから、Drupalを使用してApache Solrに接続していると仮定します。 Tikaは、バイナリ文書を送信するときにSolr内から実行できます。また、Solrに文書を送信する前に使用することもできます。 Drupal Solr Attachmentsモジュールには、「Tika（ローカルJavaアプリケーション）」の設定があります。 2番目のリンクでは、Solr Attachmentsモジュールにパッチを適用してTikaの代わりにPDFBoxを使用して、バイナリファイルを解析してSolrに送信しました。 Drupalを使用していない場合は、同様のアプローチを試してください。

出典

2013-02-28 18:57:37

アラビア語のためのSolr PDFの

答えて

関連する問題