0
私は処理イメージプロジェクトに取り組んでいます。私がしなければならないことはイメージからテキストを抽出することです、私は実際にWindows上でtesseract 3.03用のPythonラッパーを使用しています。私は多くの言語(英語、frensh、...)の.traineddataファイルをダウンロードしました。私は、tesseractが、分離された文字を検出した後で、単語リストファイルを使って単語を検出しようとするところを読んでいます。私の質問は、単語リストを使わずに.traineddataファイルを生成する方法です。単語を確認せずに検出された文を返すようにしたいからです。単語リストを使用せずにtesseract 3.03のeng.traineddataを生成します。
どうもありがとう、私はそれを試してみて、私はクイック検索を行っているバック – jonathan
をフィードを提供します、私は.traineddataファイルは、ファイルに tessdata/eng.config をクランチによって生成されることが理解tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-DAWG tessdata/eng.word-DAWG tessdata/ENG。番号: tessdat/eng.freq-仲の良い友達 、あなたは私が tessdata/eng.punc、仲の良い友達 tessdata/eng.word、仲の良い友達 tessdata/eng.number、仲の良い友達 tessdata/eng.freq-仲の良い友達に取って代わるだろうと述べたとして by tieseract 3.02 – jonathan
私はunicharsetファイルとそれに対応するinttemp、pffmtable、normproto for english、tesseract 3.02を探しています。 – jonathan