私はオーバーレイHTMLをイメージにレンダリングするOCRソフトウェアを探しています。私は現在、無名の製品を使用しています。それはOCR機能を持っており、画像付きPDF文書のインラインOCRを行います。オーバーレイHTMLをイメージに配信するOCR?
インラインOCRは非常に便利で、PDF文書をテキストの画像で検索することができます。また、文書内でテキストを直接強調表示することもできます。OCRテキストは、下にある画像と揃えられます。残念ながら、私は名前のない製品の中からインラインOCRをエクスポートしたり保管したりすることを控えることができます。
インラインOCRを実行してエクスポートできる他のソフトウェアはありますか?私は特に、基礎となるイメージに合わせた配置された段落からなるHTMLにエクスポートすることに興味があります。
を。 (私は「無名」とはそれが所有権であり、あなたがそれが何であるかを知らないわけではないということを意味します)。あなたはOCRを訓練しているか、それとも与えられた文字セットに対して解釈すると仮定していますか? shapecatcher.comはあなたを助けますか?それは標準のUnicodeグリフセットに対してビットマップを実行しますか? –
ありがとうございます。私は、情報を抽出するための完全なOpenSourceソリューションを作成しています(bitbucket.org/petermr/pdf2svg-devとbitbucket.org/petermr/svg2xml-devfrom PDFですが、まだ画像/ OCRの部分はあまり行っていません)。まずANSIに対処しますが、あなたの息を止めないでください。 –