2011-07-29 2 views
1

Nuance OmniPage SDKを使用してイメージとPDFでOCRを実行していますが、私のケースではファイルを認識するときにOCRが生成するXMLファイルを解析する必要がありますが、実際には意味がありません。ここではSDKのサンプル出力です:NuanceのOmniPage SDKのXMLフォーマットの操作経験がある人はいますか?

<page ocr-vers="OmniPageCSDK16" app-vers="OfficeDrop"> 
    <description backColor="ffffff"> 
     <source 
      file="C:\Users\workspace\jobs\src\test\resources\test-docs\0003.tiff" 
      dpix="300" dpiy="300" sizex="2480" sizey="3509" /> 
     <theoreticalPage size="Custom" marginLeft="0" 
      marginTop="0" marginRight="0" marginBottom="0" width="2480" height="3509" /> 
    </description> 
    <zones> 
     <textZone l="1814" t="1517" r="4694" b="1733" fillingMethod="omnifont" 
      recognitionModule="omnifontPlus2w" chrFilter="all"> 
      <ln l="1814" t="1517" r="4690" b="1728" baseLine="1680" 
       underlined="none" fontSize="1100"> 
       <wd l="1814" t="1517" r="2539" b="1728">Sample</wd> 
       <space width="67" /> 
       <wd l="2606" t="1541" r="2995" b="1680">text</wd> 
       <space width="72" /> 
       <wd l="3067" t="1570" r="3302" b="1680">on</wd> 
       <space width="72" /> 
       <wd l="3374" t="1517" r="3734" b="1680">line</wd> 
       <space width="91" /> 
       <wd l="3826" t="1522" r="3912" b="1680">1</wd> 
       <space width="82" /> 
       <wd l="3994" t="1570" r="4459" b="1728">page</wd> 
       <space width="91" /> 
       <wd l="4550" t="1522" r="4690" b="1680">1.</wd> 
       <space /> 
      </ln> 
     </textZone> 
    </zones> 
</page> 

ページサイズの定義((* 72 2480)/ 300)、把握するのは非常に簡単ですが、私にポイントで正しいページ幅を与えるつもり(そしてれます高さ)を指定しますが、他の値は意味を持ちません。

このフォントサイズは1100とは何ですか?そして、これらの単語の座標は?ページ上に存在しない位置にある座標をどのように持つことができますか?

このXML形式が何であるかを知っている人はいますか?私はSDKに付属のすべてのマニュアルを検索しましたが、これらの値が表すものや使用しているユニット(これはピクセルまたはポイントではないと確信しています。

何か助けていただければ幸いです。私はOmniPage C SDKにアクセスするためにJavaバインディングを使用しています。

答えて

3

Omni Page word coordidatesは通常、それぞれのポイントまたはピクセル変換を行う必要があるTwipsの観点から出力されます。たとえば、200dpiの画像の測定値を計算したい場合は、この方法(値* 200)/ 1440ピクセルを使用する必要があります。クロスチェックでは、絵筆で画像を開き、各単語のポインタの位置を確認します。

関連する問題