空白で区切られた文字を含む白黒画像があります。各文字のrect(上、下、左と右のピクセル)を検出する最も良い方法は何ですか?PIL - 文字の検出方法は?
0
A
答えて
1
PILは、作物の読み込み/保存、基本的な変換などを行うことができますが、OCRの基本である「コンピュータサイエンス」フィルタは完全に欠けています(Leptonicaライブラリ、 Tesseractによって使用される)。 Tesseractが必要なものを認識できない場合は、コメントに記載されているように、自分のOCRソフトウェアを読んでから本当に難しい作業をしてください。
もしあなたが必要とするのは、各文字の境界矩形です。それは、一桁の簡単さです.PILでも実行可能かもしれませんが、Python-leptonicaバインディングではもっと簡単です。 leptonica.functions.pixFindRectangleCompsを使用する - 関数のheklpは次のとおりです。
PIXはleptonicaライブラリ画像オブジェクトであり、そして「boxa」は、矩形オブジェクトのリストであるpixFindRectangleComps(*args)
('PIX', '*pixs')
('l_int32', 'dist')
('l_int32', 'minw')
('l_int32', 'minh')
pixFindRectangleComps()
Input: pixs (1 bpp)
dist (max distance allowed between bounding box and nearest
foreground pixel within it)
minw, minh (minimum size in each direction as a requirement
for a conforming rectangle)
Return: boxa (of components that conform), or null on error
Notes:
(1) This applies the function pixConformsToRectangle() to
each 8-c.c. in pixs, and returns a boxa containing the
regions of all components that are conforming.
(2) Conforming components must satisfy both the size constraint
given by @minsize and the slop in conforming to a rectangle
determined by @dist.
(END)
。
私はLeptonicaのPythonバインディングを開始していました。現在、http://code.google.com/p/pylepthonica/wiki/Homeから入手できます。これらのバインディングにはあまり愛されていませんが、動作するはずですleptica 1.67(これは+/- 2歳です)
関連する問題
- 1. 文字キープレスの検出方法は?
- 2. 絵文字の検出方法
- 3. 小文字の検出方法
- 4. JavaScriptで文字列のヘブライ文字を検出する方法
- 5. 文字セットのエンコーディングを検出する方法は?
- 6. テキストの文字セットを検出する方法は?
- 7. 端末のユニコード文字列幅を検出する方法は?
- 8. 文字列のハッシュアルゴリズムを検出する方法は?
- 9. 文字列内の文字「\」の検索方法は?
- 10. 文字列の文字の出現をチェックする方法は?
- 11. 文字列のキャリッジリターンを検出する方法
- 12. ハッシュされた文字列のアルゴリズムを検出する方法
- 13. マルチバイト文字エンコーディングの検出
- 14. Python PILイメージオブジェクトから文字列データを取得する方法は?
- 15. のXSL FOは - 文字の検出と
- 16. 大文字の大文字文字列を検出する
- 17. マルチバイト文字を検出する方法javascriptで終わる?
- 18. 絵文字を検出してフォントサイズを変更する方法
- 19. 数字、アルファベット、$ _#以外の文字の検索方法は?
- 20. 文字列の検索方法
- 21. は、URL文字列に特定の文字を検出し、別の文字
- 22. 高速文字検出rs232
- 23. ファイル名の中国語/日本語文字の検出方法は?
- 24. ファイル内の文字列を検索し、その文字列を含む行を出力する方法は?
- 25. Excelの文字列から文字を抽出する方法
- 26. C#で文字列内の文字列を検索する方法は?
- 27. Rは、文字列の配列に文字列を検索する方法
- 28. Perlを使用して中国語文字を検出する方法は?
- 29. URLを含む文字列を検出する方法はありますか?
- 30. PILは文字の先頭を切り捨てます
Tesseract OCRこれを行うことができます – wim
完全に空白の列を探してセパレータとして使用します。 –
tesseractは数式を認識できません。私は各キャラクターを別々に認識することでこれをしたいと思っています。 – arts777