2013-05-16 16 views
11

私はイメージテキスト抽出にTesseract 3.0.2 OCR SDKを使用しています。しかし、私が中国語のテキストイメージを使用してOCRを通過すると、Tesseractは私に数字と英語の文字を取得する代わりに中国語の文字を提供しません。しかし、私は使用している画像に表示されているように漢字が必要です。Tesseract OCRを使用した中国語文字認識

どうすればこの問題を解決できますか?他の文字ではなく漢字を得る方法はありますか?

答えて

11

あなたは中国の訓練されたデータをダウンロードする(それはchi_sim.traineddataのようなファイルになります)と、あなたのtessdataフォルダに追加する必要があります。あなたはどんな問題がある場合は https://github.com/aryansbtloe/ExperimentWithTesseract.git

から(中国語サポート付き)tessaractと私の実験をダウンロードすることができ https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

ファイルをダウンロードし、この

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"]; 

のように使用するには

私はこの1つをテストしました...あなたがこれが役に立つと思うことを願っています。

+1

ありがとうございます:-) –

+0

Alok、私はあなたのサンプルを試してみました、私は試みた簡体字の半分の約半分でうまく動作します。それ以外の場合は、複合文字を複合文字のコンポーネントを表す複数の異なる文字として認識するか、完全に間違っているかのいずれかを認識することがあります。認識の精度を向上させる方法はどれか知っていますか? – CodePlumber

+1

新しい訓練データリンクはhttps://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddataです。 –

関連する問題