tesseract

0熱

1答えて

GithubのリポジトリからTikaをインストールし、スキャンしたドキュメントページを含むPDFをOCRしようとしました。 WARNING：たTesseract OCRがインストールされていると自動的に「あなたない限り、画像ファイルに適用されます、私はたTesseractがインストールされ、利用されていることを事前に確認を得たものの、メタデータのみが（抽出します java -cp tika-ap

0熱

1答えて

OCRの前処理のために画像からノイズとテキストを分割する方法

私はTVフッテージの字幕に対してOCRを適用しています。（私はTesseact 3.x w/C++を使用しています）OCRの前処理としてテキストと背景部分を分割しようとしています。ここで元の画像です：そして、前処理画像： OCR結果は：Sicemnクローン上記前処理された画像が示されているように、手紙の周りに残っているいくつかの「霧」があります。これは、OCRモジュールがj ob。これら

0熱

1答えて

pytesseract WindowsError：[エラー5]アクセスが拒否されました

Windows 10システムにpytesseractをインストールしました。私は pytesser=pytesseract.image_to_string(image) 、次の行を実行しようとするとそれは言って、エラーをスローし、 WindowsError: [Error 5] Access is denied でもtesseract_cmdパスを変更した後、それは同じエラーをスローします。あなた

0熱

1答えて

私たちはtesseractを使ってパンOCRを行っていますが、名前とパン番号のような詳細を検出することはできません

パンのカードイメージをすべての反復で20pxずつ増加させて切り取っています。 ocrは行っていますが、画像処理の方が良い解決策を持っているか、または cv2のような別のライブラリが役に立ちましたら、output.ifでノイズが発生しています。 import pytesseract from PIL import Image, ImageEnhance, ImageFilter im = Im

1熱

1答えて

R：OCR用ボーダー除去

私はいくつかの印刷フォームからいくつかの情報を抽出するために、Rでtesserectパッケージを使用しようとしています。しかし、私はいくつかの文字がフォームマージンを超えたインスタンスを扱うのは難しいと思っています。いくつかのチュートリアルを読んだ後、それは私の結果を改善する可能性が国境を取り除くように思えます。とにかく私はRにパッケージを利用してこれを行うことができますか？パッケージ "mag

-2熱

1答えて

端末から実行したときにEclipseから実行したときの実行時execコマンド

javaの画像でtesseractを使用してOCRを実行しようとしています。私はTess4Jのような包括的な機能と素材を提供するラッパーがあることを認識していますが、私はそれを正しく設定するのに苦労しています。ランタイムで1行のコマンドを実行するだけで、私はちょっと個人的な小さなプロジェクトであり、他のコンピュータや何かで作業する必要がないので、私はとにかく必要です。私はこのコードを持っている：

0熱

1答えて

イメージからフィーチャーを抽出するためのPythonループが完全に実行されない

Tesseract-OCR（python wrapper-tesserocr）を使用してテキストを含むイメージからフォント属性を抽出する次のコードがあります。 for image in image_list: print "Starting for ",image font_attribute_list = [] with PyTessBaseAPI(oem=0) a

0熱

1答えて

pytesseractの結果がtesseractコマンドラインの結果と異なる

私は、Ubuntuでpytesseractとtesseractの両方のコマンドラインを使用して、スキャンしたページをテキストに変換しようとしています。結果は著しく異なります（pyesseractはtesseractコマンドラインよりも優れた性能を発揮します）、なぜ私は理解できません。私はパラメータのデフォルト値を調べ、tesseractコマンドライン（psmなど）のパラメータ値の一部を変更しようと

-1熱

1答えて

データ入力の自動化

私は手で記入されている事前定義されたフォームからのデータ入力を自動化するために探しています。文字は区切られていませんが、フィールドは表の下または表の一部として識別できます。手書きのOCRは依然として活発な研究の領域であり、私はオペレータレビュー機能を含めることができるので、90％を超える確度は期待していません。私が考えた最初の解決策は、フィールド識別用のOpenCV（http://answers

1熱

1答えて

Tesseractが余分な空白を単語に挿入しないようにするには？

私はTesseract forumすでに経由たTesseract（とのImageMagick）にこのについて尋ね、私はこれは私が働いているPDFのセクションで、この PDF file のテキストを見つけるためにしようとしています文字列を特定しようとしたときに、このセクションでは、たTesseractが問題に実行されています、それは PDFのライン＃7のオンCONSTRUCTORA。それはC