トレーニング曖昧さのためのTesseract OCR

私はデータスクレイピングにはまったく新しく、私はマイナーな問題に直面しています。トレーニング曖昧さのためのTesseract OCR

OCRのtextractとTesseractを使用してヒンディー語のpdfからテキストを抽出しようとしています。

今

import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

、PDFからの言葉の多くが正しく抽出されています Pythonでコードを以下に示します。しかし、混乱しているものがいくつかあります。私はドキュメントと、あいまいさがファイルlang.unicharambigsを使用してどのように上書きできるかについて読んでいます。しかし、私はcombine_tessdataを実際に実行して、訓練された特定のデータを無効にするために実行する必要があります。私は、コマンドを実行しようとすると、

はしかし、私は次を得る：

-bash: combine_tessdata: command not found

私はソースからtesseractをインストールしていると私はこれが起こっている理由を理解するように見えることはできません。これをトラブルシューティングする方法に関するアイデアはありますか？

ありがとうございます！

出典

2016-03-23 Rishabh Ranawat

テッサラクトトレーニング実行ファイルは別々に構築されます。

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

出典

2016-03-24 01:06:37 nguyenq

大丈夫です。しかし、私が今直面している問題は、どのようにこれらのライブラリをMac OSXにインストールするのかということです。 'libicu-dev libpango1.0-dev libcairo2-dev' –

トレーニング曖昧さのためのTesseract OCR

答えて

関連する問題