複数のTiffを使用してTesseractをトレーニングする場合、どのようにボックスファイルを表示する必要がありますか?複数のtiffを使ったTesseractトレーニング
もっと正確には:ボックスファイルのY座標はページ内のY座標にどのように対応していますか?
複数のTiffを使用してTesseractをトレーニングする場合、どのようにボックスファイルを表示する必要がありますか?複数のtiffを使ったTesseractトレーニング
もっと正確には:ボックスファイルのY座標はページ内のY座標にどのように対応していますか?
ボックスファイルの最後の6番目の列は、0から始まるページ番号を表します。
https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files
更新:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
各フォントは、単一のマルチページTIFFに配置する必要がありますし、ボックスファイル は、各文字のためのページ番号を指定するように変更することができます の後に座標。したがって任意の大量のトレーニングデータは任意のフォントに対して を作成することができ、大きな文字セット言語の のトレーニングを可能にします。
大量のトレーニングテキストが必要な場合でも、イメージが不必要に大きくなり、トレーニングが遅くなる可能性があります。
ありがとう、私はそれを逃した必要があります。 Tesseractがサポートする最大ページ数を知りましたか? – Tim