2016-10-19 5 views
0

私は現時点でtesseractを試していますが、うまくいきますが、それは十分正確ではありません。画質も同様に重要な役割を果たしていることは知っていますが、私が使用している文書の中には珍しいフォントを使用しているものがあります。それはまだそれの部分を認識しますが(約50-60%、これはかなり良いですが)、これは明らかに完全に満足できるものではありません。tesseractをトレーニングするにはどうすればよいですか?新しい言語は作成できません。

私は今、tesseractを訓練することは可能かどうかを知りたいが、全く新しい言語を作成するのではなく、すでに使用しているデータを使い、

第2に、これが可能であれば、これはお勧めですか?または、私が遭遇するすべての新しいフォントに対して新しい言語を作成するほうがいいでしょうか?または(3)私が直面する新しいフォントごとに新しい言語を作成しますが、最初から作成するのではなく、今?どう思いますか? tesseract &の訓練方法に関するリンクを提供できる場合は、既に提供されているトレーニングデータを利用してください。教えてください。ドキュメントに与えられたとして、あなたは.traineddataファイルからファイルを抽出することができます

答えて

0

: は、指定されたパスにすべてのコンポーネントを展開するために、オプション-uを指定します。

combine_tessdata -u tessdata/eng.traineddata /ホーム/ $ USERの/ temp/eng。 これは、tessdata/eng.traineddataの個々のtessdataコンポーネントを持つ/home/$USER/temp/eng.*ファイルを作成します。 その他のオプションもあります。以下のリンクのドキュメントを確認してください。 https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

しかし、元のファイルで遊ぶのではなく、新しい言語のためにtesseractを練習することをお勧めします。

(2)フォントごとに新しい言語を作成する必要はありません。フォントごとにイメージ、ボックス、トレーニングファイルを作成する必要があります。これらのファイルはすべて、単一言語の訓練データファイルに結合されます。

(3)これも可能です。お問い合わせ https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set

関連する問題