単語リストを使用せずにtesseract 3.03のeng.traineddataを生成します。

私は処理イメージプロジェクトに取り組んでいます。私がしなければならないことはイメージからテキストを抽出することです、私は実際にWindows上でtesseract 3.03用のPythonラッパーを使用しています。私は多くの言語（英語、frensh、...）の.traineddataファイルをダウンロードしました。私は、tesseractが、分離された文字を検出した後で、単語リストファイルを使って単語を検出しようとするところを読んでいます。私の質問は、単語リストを使わずに.traineddataファイルを生成する方法です。単語を確認せずに検出された文を返すようにしたいからです。単語リストを使用せずにtesseract 3.03のeng.traineddataを生成します。

出典

2017-05-04 jonathan

.traineddataファイルを解凍し、辞書コンポーネントを空に置き換えて再パックすることができます。または単に辞書を無効にすることもできます。

Disable dictionary in Tesseract

出典

2017-05-04 14:29:42 nguyenq

どうもありがとう、私はそれを試してみて、私はクイック検索を行っているバック – jonathan

をフィードを提供します、私は.traineddataファイルは、ファイルに tessdata/eng.config をクランチによって生成されることが理解tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-DAWG tessdata/eng.word-DAWG tessdata/ENG。番号： tessdat/eng.freq-仲の良い友達、あなたは私が tessdata/eng.punc、仲の良い友達 tessdata/eng.word、仲の良い友達 tessdata/eng.number、仲の良い友達 tessdata/eng.freq-仲の良い友達に取って代わるだろうと述べたとして by tieseract 3.02 – jonathan

私はunicharsetファイルとそれに対応するinttemp、pffmtable、normproto for english、tesseract 3.02を探しています。 – jonathan

単語リストを使用せずにtesseract 3.03のeng.traineddataを生成します。

答えて

関連する問題