tesseract

    0

    1答えて

    GithubのリポジトリからTikaをインストールし、スキャンしたドキュメントページを含むPDFをOCRしようとしました。 WARNING:たTesseract OCRがインストールされていると自動的に「あなた ない限り、画像ファイルに適用されます、私はたTesseractがインストールされ、利用されていることを事前に確認を得たものの、メタデータのみが(抽出します java -cp tika-ap

    0

    1答えて

    私はTVフッテージの字幕に対してOCRを適用しています。 (私はTesseact 3.x w/C++を使用しています)OCRの前処理としてテキストと背景部分を分割しようとしています。 ここで元の画像です: そして、前処理画像: OCR結果は:Sicemnクローン 上記前処理された画像が示されているように、手紙の周りに残っているいくつかの「霧」があります。これは、OCRモジュールがj ob。 これら

    0

    1答えて

    Windows 10システムにpytesseractをインストールしました。私は pytesser=pytesseract.image_to_string(image) 、次の行を実行しようとするとそれは言って、エラーをスローし、 WindowsError: [Error 5] Access is denied でもtesseract_cmdパスを変更した後、それは同じエラーをスローします。あなた

    0

    1答えて

    パンのカードイメージをすべての反復で20pxずつ増加させて切り取っています。 ocrは行っていますが、画像処理の方が良い解決策を持っているか、または cv2のような別のライブラリが役に立ちましたら、output.ifでノイズが発生しています。 import pytesseract from PIL import Image, ImageEnhance, ImageFilter im = Im

    1

    1答えて

    私はいくつかの印刷フォームからいくつかの情報を抽出するために、Rでtesserectパッケージを使用しようとしています。しかし、私はいくつかの文字がフォームマージンを超えたインスタンスを扱うのは難しいと思っています。 いくつかのチュートリアルを読んだ後、それは私の結果を改善する可能性が国境を取り除くように思えます。とにかく私はRにパッケージを利用してこれを行うことができますか?パッケージ "mag

    -2

    1答えて

    javaの画像でtesseractを使用してOCRを実行しようとしています。私はTess4Jのような包括的な機能と素材を提供するラッパーがあることを認識していますが、私はそれを正しく設定するのに苦労しています。ランタイムで1行のコマンドを実行するだけで、私はちょっと個人的な小さなプロジェクトであり、他のコンピュータや何かで作業する必要がないので、私はとにかく必要です。 私はこのコードを持っている:

    0

    1答えて

    Tesseract-OCR(python wrapper-tesserocr)を使用してテキストを含むイメージからフォント属性を抽出する次のコードがあります。 for image in image_list: print "Starting for ",image font_attribute_list = [] with PyTessBaseAPI(oem=0) a

    0

    1答えて

    私は、Ubuntuでpytesseractとtesseractの両方のコマンドラインを使用して、スキャンしたページをテキストに変換しようとしています。結果は著しく異なります(pyesseractはtesseractコマンドラインよりも優れた性能を発揮します)、なぜ私は理解できません。私はパラメータのデフォルト値を調べ、tesseractコマンドライン(psmなど)のパラメータ値の一部を変更しようと

    -1

    1答えて

    私は手で記入されている事前定義されたフォームからのデータ入力を自動化するために探しています。文字は区切られていませんが、フィールドは表の下または表の一部として識別できます。手書きのOCRは依然として活発な研究の領域であり、私はオペレータレビュー機能を含めることができるので、90%を超える確度は期待していません。 私が考えた最初の解決策は、フィールド識別用のOpenCV(http://answers

    1

    1答えて

    私はTesseract forumすでに 経由たTesseract(とのImageMagick)にこのについて尋ね、私はこれは私が働いているPDFのセクションで、この PDF file のテキストを見つけるためにしようとしています 文字列を特定しようとしたときに、このセクションでは 、たTesseractが問題に実行されています、それは PDFのライン#7のオンCONSTRUCTORA。 それはC