2017-04-13 13 views
2

印刷された文書に対してテキストセグメンテーションを行いたい。私はすでに文書を文字セグメンテーションに分割していますが、いくつかの接触文字を満たすと失敗しました。私は単語を分割するためにTesseract OCRを使用したいと思います。私はTesseractがこの作業を行うことができると知っていますが、私はtesseractの内部コードを掘り下げずにアクセスする方法を知らないのです。誰か私に助言を与えることができますか?可能であれば、私はPythonでそれが必要です。Tesseract OCRを使用した文字セグメンテーションのみ

答えて

1

TessBaseAPIGetComponentImages APIメソッドを呼び出すことができる場合は、イメージ上で実際のOCRを実行せずにさまざまなpageIteratorLevelレベル(シンボル/文字、単語、行など)でセグメントを取得できます。

関連する問題