私は、プログラムでPDFのCAD図面とプレーンな2D印刷を調べ、すべての寸法とページ上の寸法の位置を引き出す方法を探しています。私はこれを可能にする技術を求めています。OCRを使用してPDFから寸法を抽出する
私は幾分tesseractに精通しており、いくつかの奇妙なgd &の形を認識するように訓練し、1のvs |のような一般的なOcrのミスを混乱させる言語をセットアップします。 pdf図面からすべての「テキストブロック」または「テキスト付き画像ブロック」を抽出するソリューションで、この言語でtesseractを使用してそれらを実行することも理想的です。
また、leadtools、PDFBox、iText、TET、Adobe SDKを見てください。彼らの間でいくつかの比較をしようとしています。私は特に次元/数と形状を正確に認識することに興味があり、apiは位置情報も抽出する能力が必要です。これらのいずれかの過去の経験や、良いものや悪いものに対する有用な洞察は、大いに評価されるでしょう!