私はデータスクレイピングにはまったく新しく、私はマイナーな問題に直面しています。トレーニング曖昧さのためのTesseract OCR
OCRのtextract
とTesseract
を使用してヒンディー語のpdfからテキストを抽出しようとしています。
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
、PDFからの言葉の多くが正しく抽出されています Pythonでコードを以下に示します。しかし、混乱しているものがいくつかあります。私はドキュメントと、あいまいさがファイルlang.unicharambigs
を使用してどのように上書きできるかについて読んでいます。しかし、私はcombine_tessdata
を実際に実行して、訓練された特定のデータを無効にするために実行する必要があります。私は、コマンドを実行しようとすると、
はしかし、私は次を得る:
-bash: combine_tessdata: command not found
私はソースからtesseract
をインストールしていると私はこれが起こっている理由を理解するように見えることはできません。これをトラブルシューティングする方法に関するアイデアはありますか?
ありがとうございます!
大丈夫です。しかし、私が今直面している問題は、どのようにこれらのライブラリをMac OSXにインストールするのかということです。 'libicu-dev libpango1.0-dev libcairo2-dev' –