私は現時点でtesseractを試していますが、うまくいきますが、それは十分正確ではありません。画質も同様に重要な役割を果たしていることは知っていますが、私が使用している文書の中には珍しいフォントを使用しているものがあります。それはまだそれの部分を認識しますが(約50-60%、これはかなり良いですが)、これは明らかに完全に満足できるものではありません。tesseractをトレーニングするにはどうすればよいですか?新しい言語は作成できません。
私は今、tesseractを訓練することは可能かどうかを知りたいが、全く新しい言語を作成するのではなく、すでに使用しているデータを使い、
第2に、これが可能であれば、これはお勧めですか?または、私が遭遇するすべての新しいフォントに対して新しい言語を作成するほうがいいでしょうか?または(3)私が直面する新しいフォントごとに新しい言語を作成しますが、最初から作成するのではなく、今?どう思いますか? tesseract &の訓練方法に関するリンクを提供できる場合は、既に提供されているトレーニングデータを利用してください。教えてください。ドキュメントに与えられたとして、あなたは.traineddataファイルからファイルを抽出することができます