2017-03-25 9 views
0

solfでTika OCRを設定する方法6.4.1。 PDF、画像、MSオフィス文書を含む文書を索引付けしましたが、問題が発生しました。Tikaは画像からテキストを抽出していなかったし、PDF文書とMSオフィス文書の中にある画像も抽出していませんでした。このため私はTika OCRを研究しました。この目的のために 私はtika-app-1.7.jarとTesseractをインストールしていますが、私のsolrコアでそれらを設定する方法はわかりません。solerでTesseractを設定する6.4.1

答えて

1

特別な操作は必要ありません。あなたのディストリビューション用のTesseract OCR設定と、システム上のinstallを取得するだけです。 PATH変数にTesseractホームディレクトリのエントリがあり、TESSDATA_PREFIX変数が設定されていて、Tesseractホームディレクトリを指していることを確認してください。 Solrを再起動して、あなたは行き​​たい。 /update/extractハンドラを使用してドキュメントをインデックスにプッシュすると、OCRコンポーネントが表示されるはずです。

デフォルトでは、Tesseractは英語モデルのみで出荷されます。 hereから他の言語のモデルを入手してください。

+0

はいそれは動作します!!!! –

+0

しかし、それはアラビア語のテキストを取得しません。 –

+0

どうすればそれらを抽出できますか? –

関連する問題