Pythonでディレクトリ全体でTesseract OCRを実行

私はディレクトリに複数のイメージを持ち、イメージからテキストファイルに変換したい。私はそれを手動でターミナルで手動で行う必要があります。頭痛のプロセスです。だから、私の質問はどのように画像を含むそのフォルダ上で自分のコードを実行することができますです。ここでPythonでディレクトリ全体でTesseract OCRを実行

テキストに変換するターミナルコマンドです：ちょうど2つのターミナルコマンド、TIFFにすべてのファイルを変換し1、および1つ使用して

convert captcha.png -resize 200% -type Grayscale input.tif #instead of input.tif i want same file name so, i can recognise easily 

tesseract -l eng input.tif output #output name as same as file name

出典

2017-06-23 wizard

使用pytesseract＆ – n1c9

をグロブ私は結果が、これは私のために完璧に動作し、非常に恐ろしいですテキストにそのけど画像を試してみました。何か方法はありますか？ – wizard

'subprocess.call'を使って様々なファイルでシェルコマンドを呼び出し、globを使ってファイル名を探します。 – n1c9

簡単な方法、ないのPython、各TIFFファイルでたTesseractを呼び出します。

はTIFF
にすべての画像を変換します結果について
通話たTesseract：あなたのファイル名にスペースが含まれていない場合
```
for f in *.tif;do tesseract -l eng "$f" "$(basename "$f" .tif).txt";done 
```
（あなたが二重引用符（"）をスキップすることができます。

ステップ1の交換）は、出力名が奇妙に見える場合：

for f in *.png;do convert "$f" -resize 200% -type Grayscale "$(basename "$f" .png).tif";done

出典

2017-06-23 09:40:50 xenoid

ファイル名は '['603351234']。tif' @xenoid – wizard

@wizardのようになります。答えに 'convert'ステップのための代替の1行を追加しました。 – xenoid

Pythonでディレクトリ全体でTesseract OCRを実行

答えて

関連する問題