2012-09-05 8 views
10

tesseractでGetHOCRText(0)メソッドを使用する私はHTMLでテキストを取得することができ、webviewでHTMLを表示することができますが、テキストは取得できますが、画像と出力が異なっています。どんなアイデアも非常に役に立ちます。tesseractの画像からテキストの正確な位置を取得する

tesseract->SetInputName("word"); 
tesseract->SetOutputName("xyz"); 
tesseract->Recognize(NULL); 


char *utf8Text=tesseract->GetHOCRText(0); 

This the image i'm using for tesseract

出力画像enter image description here

+0

あなたは位置認識で成功しましたか? –

答えて

1

GetBoxText()方法は、アレイ内の各文字の正確な位置を返します。

char *boxtext = _tesseract->GetBoxText(0); 
NSString* aBoxText = [NSString stringWithUTF8String:boxtext]; 
+0

Swiftでこれを行う方法は?! – Husam

1

hocr出力がある場合は、各単語にタグが必要です。これらのタグは、class = "ocrx_word"とname = "bbox x1 y1 x2 y2"を持つ必要があります。ここでxとyは単語の周りの境界ボックスの左上と右下です。この情報を自動的に使用してテキスト文書をフォーマットすることはできないと考えています。ピクセルの違いをタブ/スペースの数に変換する必要があります。しかし、指定された場所にテキストをレンダリングできるはずです。

関連する問題