solfでTika OCRを設定する方法6.4.1。 PDF、画像、MSオフィス文書を含む文書を索引付けしましたが、問題が発生しました。Tikaは画像からテキストを抽出していなかったし、PDF文書とMSオフィス文書の中にある画像も抽出していませんでした。このため私はTika OCRを研究しました。この目的のために 私はtika-app-1.7.jarとTesseractをインストールしていますが、私のsolrコアでそれらを設定する方法はわかりません。solerでTesseractを設定する6.4.1
0
A
答えて
1
特別な操作は必要ありません。あなたのディストリビューション用のTesseract OCR設定と、システム上のinstallを取得するだけです。 PATH
変数にTesseractホームディレクトリのエントリがあり、TESSDATA_PREFIX
変数が設定されていて、Tesseractホームディレクトリを指していることを確認してください。 Solrを再起動して、あなたは行きたい。 /update/extract
ハンドラを使用してドキュメントをインデックスにプッシュすると、OCRコンポーネントが表示されるはずです。
デフォルトでは、Tesseractは英語モデルのみで出荷されます。 hereから他の言語のモデルを入手してください。
関連する問題
- 1. OCR Tesseractの設定
- 2. Tesseract OCRで書き込み方向を設定する方法は?
- 3. Tesseract:テキストの範囲を指定する
- 4. サイトコア(6.4.1)仕事箱リンク
- 5. Tesseract-OCRによる認識に使用するフォントを明示的に設定
- 6. Tesseract Java設定用Tessdata_Prefix実行可能なjar用
- 7. foundation-railsでjsエクスポートの問題を修正する方法6.4.1
- 8. tesseract 4(HEAD-ae53ed6)は自分の設定ファイルを無視します
- 9. Windows CMDでTesseractを試す
- 10. iOSのtesseractをコンパイルする
- 11. Solr 6.4.1非常に長い更新
- 12. Solr 6.4.1のハイライトを使って作業する
- 13. androidでtesseractを使用する
- 14. マルチスレッドでPHPを実行する(tesseract)
- 15. Magick ++をTesseractで使用する
- 16. Windowsでのtesseractトレーニング
- 17. tesseract 3.00はマルチスレッドですか?
- 18. Android tesseract OCR、jni:Lcom/googlecode/tesseract/android/TessBaseAPI
- 19. Tesseractトレーニングエラー
- 20. Python Tesseract
- 21. Tesseractユーザーパターン
- 22. TesseractとJavaラッパーライブラリTess4Jを使用して簡単なプログラムを実行すると、Tesseract/Tess4JがMac OS Xでクラッシュする問題フレーム:C [libtesseract.dylib + 0xcf72] tesseract :: TessResultRenderer ::〜TessResultRenderer()+ 0x10
- 23. Tesseractのテストデータ
- 24. Tesseract TessBaseApi init()エラー
- 25. Tess4j Tesseract vs Tesseract1
- 26. たTesseractトレーニング -
- 27. パースたTesseract
- 28. たTesseractトレーニング:
- 29. R Tesseractのエラー
- 30. エラー - Qt Tesseract
はいそれは動作します!!!! –
しかし、それはアラビア語のテキストを取得しません。 –
どうすればそれらを抽出できますか? –