私はApache Solrでアラビア語のPDFを検索しようとしています。この問題は、Tikaが(右から左へ)ではなく、逆順(左から右)でPDFにインデックスを付けることにあります。アラビア語のためのSolr PDFの
私はここに、この問題についての言及を発見した:しかし、私はPDFBOXの最新バージョンを含める方法がわからない
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
をか私のapache solrのICU4J。私のApache Solr Contrib/extraction/lib
フォルダには、pdfbox-1.6.0.jar
とicu4j-4.8.1.1.jar
が含まれています。上記のファイルを削除し、それらのプロジェクトページの最新のライブラリに置き換えることは、TIKAにそれらを使用させるのに満足できるものでしょうか?
Javaサーブレットに関するこれまでの経験はありませんので、説明してください。ありがとう!