2017-01-14 17 views
3

こんにちは私は画像からテキストを抽出するpythonライブラリpytesseractを試しています。 は、コードを見つけてください:pytesseractエラーWindowsエラー[エラー2]

from PIL import Image 
from pytesseract import image_to_string 
print image_to_string(Image.open(r'D:\new_folder\img.png')) 

しかし、次のエラーが来た:

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "C:\Python27\lib\site-packages\pytesseract\pytesseract.py", line 161, in image_to_string 
config=config) 
File "C:\Python27\lib\site-packages\pytesseract\pytesseract.py", line 94, in run_tesseract 
stderr=subprocess.PIPE) 
File "C:\Python27\lib\subprocess.py", line 710, in __init__ 
errread, errwrite) 
File "C:\Python27\lib\subprocess.py", line 958, in _execute_child 
startupinfo) 
WindowsError: [Error 2] The system cannot find the file specified 

私はこれまで具体的な解決策が見つかりませんでした。誰も私が何をすべきか助けてくれる?私は、同じ悩みを持っていたし、すぐにこの記事を読んだ後解決策を見つけた...事前:)

答えて

2

おかげで多くのものは、ダウンロードするか、どこから私はそれなどをダウンロードすることができます。

OSError: [Errno 2] No such file or directory using pytesser

ただ、次のコードを置き換え、Windowsにそれを適応させる必要がありますと

tesseract_cmd = 'tesseract' 

を:

tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract' 

(文字列の最初の\を逃れるために、二重\\を必要とする)

0

あなたはたTesseract OCRエンジン( "Tesseract.exe")は、あなたのマシンにインストールする必要があります。パスがマシンに設定されていない場合は、pytesseract.py(tesseract.py)に完全パスを指定してください。

README

グーグルたTesseract OCR(Linuxでは、マックOSXとWindows上でエンジンをインストールする方法の追加情報)をインストールします。 tesseractコマンドをtesseractとして起動できる必要があります。たとえば、tesseractがPATHにないなどの理由でこれが当てはまらない場合は、tesseract.pyの先頭にある "tesseract_cmd"変数を変更する必要があります。 Debian/Ubuntuでは、パッケージtesseract-ocrを使うことができます。 Mac OSユーザーの場合。自作パッケージtesseractをインストールしてください。

Another thread

1

サブプロセスは、バイナリ(tesser実行ファイル)を見つけることができないので、あなたは、例外を取得しています。

インストールは、3段階のプロセスである:

1. ダウンロード/インストールし、システムレベルのlibs /バイナリ:様々なOSについては

がここhelpです。 MacOSの場合、brewを使って直接インストールすることができます。

Google Tesseract OCR(Linux、Mac OSX、Windowsに エンジンをインストールする方法の追加情報)をインストールします。 tesseractとして tesseractコマンドを呼び出すことができなければなりません。これが当てはまらない場合、たとえばtesseractがPATHにないため、 などの場合は、tesseract.pyの先頭にある "tesseract_cmd"変数を変更する必要があります。 Debian/Ubuntuの下では、パッケージtesseract-ocrを使用することができます。 Mac OSユーザーの場合。 自作パッケージtesseractをインストールしてください。Windowsについては

古いバージョン3.02のインストーラが ダウンロードページからWindowsのために利用可能です。これには英語のトレーニングデータが含まれます。 別の言語を使用する場合は、適切なトレーニングデータをダウンロードしてください。 7-zipを使用して解凍し、C:\Program Files\Tesseract-OCR\tessdataの 'tessdata'ディレクトリに.traineddataファイルをコピーします。あなたがたTesseract OCR-バイナリがパスに 変数、おそらくC:\Program Files\Tesseract-OCRに位置している ディレクトリを追加する必要があり、任意の場所から-たTesseract OCRにアクセスするには

hereから .exeのをダウンロードすることができます。


2. Pythonパッケージをインストールし

pip install pytesseract 

3. 最後に、あなたがPATHでたTesseractバイナリを持っている必要があります。

import pytesseract 

pytesseract.pytesseract.tesseract_cmd = '<path-to-tesseract-bin>' 

Windowsのの場合:あなたは、実行時にそれを設定することができます

あるいは、

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' 
  • は、上記の行は、それが永久的な解決策の追加のために、一時的に働くようになりますtesseract.exePATH - 例えばPATH=%PATH%;"C:\Program Files (x86)\Tesseract-OCR "。

  • さらに、TESSDATA_PREFIX Windows環境変数が、tessdataディレクトリを含むディレクトリに設定されていることを確認してください。例えば:

    TESSDATA_PREFIXは= C:\プログラムファイル(x86の)\たTesseract-OCR

すなわちtessdata場所は:C:\Program Files (x86)\Tesseract-OCR\tessdata


あなたの例:

from PIL import Image 
import pytesseract 

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' 
print pytesseract.image_to_string(Image.open(r'D:\new_folder\img.png')) 
関連する問題