2017-06-23 12 views
1

私はディレクトリに複数のイメージを持ち、イメージからテキストファイルに変換したい。私はそれを手動でターミナルで手動で行う必要があります。頭痛のプロセスです。だから、私の質問はどのように画像を含むそのフォルダ上で自分のコードを実行することができますです。ここでPythonでディレクトリ全体でTesseract OCRを実行

テキストに変換するターミナルコマンドです:ちょうど2つのターミナルコマンド、TIFFにすべてのファイルを変換し1、および1つ使用して

convert captcha.png -resize 200% -type Grayscale input.tif #instead of input.tif i want same file name so, i can recognise easily 

tesseract -l eng input.tif output #output name as same as file name 
+0

使用pytesseract& – n1c9

+0

をグロブ私は結果が、これは私のために完璧に動作し、非常に恐ろしいですテキストにそのけど画像を試してみました。何か方法はありますか? – wizard

+0

'subprocess.call'を使って様々なファイルでシェルコマンドを呼び出し、globを使ってファイル名を探します。 – n1c9

答えて

0

簡単な方法、ないのPython、各TIFFファイルでたTesseractを呼び出します。

  1. はTIFF

    にすべての画像を変換します結果について
  2. 通話たTesseract:あなたのファイル名にスペースが含まれていない場合

    for f in *.tif;do tesseract -l eng "$f" "$(basename "$f" .tif).txt";done 
    

    (あなたが二重引用符(")をスキップすることができます。

ステップ1の交換)は、出力名が奇妙に見える場合:

for f in *.png;do convert "$f" -resize 200% -type Grayscale "$(basename "$f" .png).tif";done 
+0

ファイル名は '['603351234']。tif' @xenoid – wizard

+0

@wizardのようになります。答えに 'convert'ステップのための代替の1行を追加しました。 – xenoid

関連する問題