2016-06-26 11 views
0

複数のTiffを使用してTesseractをトレーニングする場合、どのようにボックスファイルを表示する必要がありますか?複数のtiffを使ったTesseractトレーニング

もっと正確には:ボックスファイルのY座標はページ内のY座標にどのように対応していますか?

答えて

1

ボックスファイルの最後の6番目の列は、0から始まるページ番号を表します。

https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files

更新:

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

各フォントは、単一のマルチページTIFFに配置する必要がありますし、ボックスファイル は、各文字のためのページ番号を指定するように変更することができます の後に座標。したがって任意の大量のトレーニングデータは任意のフォントに対して を作成することができ、大きな文字セット言語の のトレーニングを可能にします。

大量のトレーニングテキストが必要な場合でも、イメージが不必要に大きくなり、トレーニングが遅くなる可能性があります。

+0

ありがとう、私はそれを逃した必要があります。 Tesseractがサポートする最大ページ数を知りましたか? – Tim

関連する問題