2016-12-09 40 views
2

私は、プログラムでPDFのCAD図面とプレーンな2D印刷を調べ、すべての寸法とページ上の寸法の位置を引き出す方法を探しています。私はこれを可能にする技術を求めています。OCRを使用してPDFから寸法を抽出する

私は幾分tesseractに精通しており、いくつかの奇妙なgd &の形を認識するように訓練し、1のvs |のような一般的なOcrのミスを混乱させる言語をセットアップします。 pdf図面からすべての「テキストブロック」または「テキスト付き画像ブロック」を抽出するソリューションで、この言語でtesseractを使用してそれらを実行することも理想的です。

また、leadtools、PDFBox、iText、TET、Adobe SDKを見てください。彼らの間でいくつかの比較をしようとしています。私は特に次元/数と形状を正確に認識することに興味があり、apiは位置情報も抽出する能力が必要です。これらのいずれかの過去の経験や、良いものや悪いものに対する有用な洞察は、大いに評価されるでしょう!

答えて

0

私たちの製品であるため、質問のLEADTOOLSに関する適切な情報を提供することができます。

PDFにテキストのイメージだけでなく実際のテキストが含まれている場合は、OCRを経由せずに直接抽出できます。これを行うには、the Leadtools.Pdf.PDFDocument.ParsePages() methodを使用してください。

テキスト領域と非テキスト領域の両方を含むイメージを扱う場合は、Leadtools.ImageProcessing.Core.AutoZoningCommandを使用してテキスト領域(領域)を分離し、それらの座標を取得できます。その後、OCRエンジンまたは独自のコードを使用できます。これを試しても満足のいく結果が得られない場合、他の先進的なオプションがありますが、実際のサンプルを見る必要があるかもしれません。ご希望の場合は、サポートファイルにサンプルファイルをメールで送信してください。

0

オンライン OCR APIがOKの場合、https://ocr.space/ocrapiは無料で、詳細な位置情報を返し、PDFを受け入れます。

{ 
     "ParsedResults" : [ 
      { 
       "TextOverlay" : { 
        "Lines" : [ 
         { 
          "Words": [ 
           { 
           "WordText": "Word 1", 
           "Left": 106, 
           "Top": 91, 
           "Height": 9, 
           "Width": 11 
           }, 
関連する問題