2016-03-23 30 views
1

私はデータスクレイピングにはまったく新しく、私はマイナーな問題に直面しています。トレーニング曖昧さのためのTesseract OCR

OCRのtextractTesseractを使用してヒンディー語のpdfからテキストを抽出しようとしています。

import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin') 

、PDFからの言葉の多くが正しく抽出されています Pythonでコードを以下に示します。しかし、混乱しているものがいくつかあります。私はドキュメントと、あいまいさがファイルlang.unicharambigsを使用してどのように上書きできるかについて読んでいます。しかし、私はcombine_tessdataを実際に実行して、訓練された特定のデータを無効にするために実行する必要があります。私は、コマンドを実行しようとすると、

はしかし、私は次を得る:

-bash: combine_tessdata: command not found 

私はソースからtesseractをインストールしていると私はこれが起こっている理由を理解するように見えることはできません。これをトラブルシューティングする方法に関するアイデアはありますか?

ありがとうございます!

答えて

2

テッサラクトトレーニング実行ファイルは別々に構築されます。

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

+0

大丈夫です。しかし、私が今直面している問題は、どのようにこれらのライブラリをMac OSXにインストールするのかということです。 'libicu-dev libpango1.0-dev libcairo2-dev' –