2017-07-22 18 views
1

Jupiter Notebookでpytesseractを使用しようとしています。管理者権限を持つPytesseract:データファイルを開く際にエラーが発生しました\ Program Files(x86)\ Tesseract-OCR \ en.traineddata

  • のWindows 10のx64
  • 実行Jupyterノート(Anaconda3、Pythonの3.6.1)
  • TIFFファイルを含む作業ディレクトリが異なるドライブにある(Z :)

私は、次のコードを実行します。

try: 
    import Image 
except ImportError: 
    from PIL import Image 
import pytesseract 

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' 

tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' 

print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en', config = tessdata_dir_config)) 

私は次のエラーを取得する:

TesseractError       Traceback (most recent call last) 
<ipython-input-37-c1dcbc33cde4> in <module>() 
    11 # tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' 
    12 
---> 13 print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en')) 
    14 # print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) 

C:\Users\cpcho\AppData\Local\Continuum\Anaconda3\lib\site-packages\pytesseract\pytesseract.py in image_to_string(image, lang, boxes, config) 
    123   if status: 
    124    errors = get_errors(error_string) 
--> 125    raise TesseractError(status, errors) 
    126   f = open(output_file_name, 'rb') 
    127   try: 

TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\en.traineddata') 

私は、これら2つの参照が役に立ったと評価していますが、私は何かが欠けています: https://github.com/madmaze/pytesseract/issues/50 https://github.com/madmaze/pytesseract/issues/64

は、この上のお時間をいただき、ありがとうございます!

答えて

1

あなたの投稿から、2つの可能性のある問題が観察されました。

  1. すべての訓練を受けた言語データは、TESSDATA_PREFIXにあなたのケースではC:\Program Files (x86)\Tesseract-OCR\tessdataである Windowsの環境変数を、保存する必要があります。

  2. tesseract訓練された英語のデータの名前は、名前を変更しない限りeng.traineddata(つまり'eng')となります。詳細はTesseract Data Filesを参照してください。また

画像ファイルが見つからない場合は、画像ファイルImage.open()を読み取るpytesseractためには、(例えば'z:\\path\\to\\image')完全なファイルパスを含むことができます。

希望します。

0

私は同じ問題に直面しました。私は成功しなかったGoogle上ですべてのソリューションを試しました。最後に、私は交換することで問題を解決しました。

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'. 

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' 

関連する問題