C++でドイツのPNG画像を読み取るためたTesseractのOCRを使用してIAMと私は たTesseract OCRドイツの特殊文字
ようないくつかの特殊文字の問題を得たßäöüなど。これを正しく読んだり、何をする必要があるかについて、私はtesseractを訓練する必要がありますか?
This is the part of the original image read by tesseract
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
UPDATE
SetConsoleOutputCP(1252);//changed to german.
SetConsoleCP(1252);//changed to german
wcout << "ÄÖÜ?ß" << endl;
// Open input image with leptonica library
Pix *image = pixRead("D:\\Images\\Document.png");
api->Init("D:\\TesseractBeispiele\\Tessaractbeispiel\\Tessaractbeispiel\\tessdata", "deu");
api->SetImage(image);
api->SetVariable("save_blob_choices", "T");
api->SetRectangle(1000, 3000, 9000, 9000);
api->Recognize(NULL);
// Get OCR result
wcout << api->GetUTF8Text());
After changing the Code below the Update ハードコーディングされたウムラウトが正しく表示されますが、画像issntからテキスト正しい、私は何を変更する必要がありますか?
たTesseractのバージョンは3.0.2 leptonicaバージョンであるたTesseractは、Unicode文字を認識することができ1.68
コンソールは、ほぼ確実にUTF-8用に構成されていません。 – MSalters
utf8のコンソールをどのように構成しますか? – Cazzador