2017-03-14 25 views
0

私はPythonでOCRの画像を前処理しています。私はpdfをバイナリイメージに変換しました。私が手出力は、私は出力に含まこのPythonでのOCR用画像前処理

desired output

これについて移動する方法任意のアイデアのようなものになりたいこの

Binary image

のようなものですか?

+0

エッジセンサーをcannyのように使用します。 – MimSaad

+0

私はcannyを試しました。うまくいかなかった – mahi

答えて

-3

特定の画像からテキストを抽出するには、Tesseractライブラリを使用する必要があります。

私はウィンドウシステムを使用していますので、場所https://sourceforge.net/projects/tesseract-ocr-alt/files/からダウンロードしました。 "E:\ W \たTesseract-OCR"

は、あなたが場所にそれをインストールしていると仮定し

次に同じ場所であなたのイメージを置きます。

E、 今すぐコマンドプロンプトとコマンドを与えることを行くあなたの画像question.png呼び出すことができます:\ W \たTesseract OCR-> tesseract.exe question.png answer.txt answer.txtがテキストファイルである

Tesseractはanswer.txtの代わりに他の名前をつけることができます。あなたのファイルはquestion.txtです。

コマンドが正常に実行されると、answer.txtで出力をチェックします。

画像の場合は、次の出力があります。

投資の種類:だから、この場合には、それが正しくテキストのみを認識しているお客様の所有

システム情報

ファイアIII ビデオI]