2013-05-12 8 views
6

私はオーバーレイHTMLをイメージにレンダリングするOCRソフトウェアを探しています。私は現在、無名の製品を使用しています。それはOCR機能を持っており、画像付きPDF文書のインラインOCRを行います。オーバーレイHTMLをイメージに配信するOCR?

インラインOCRは非常に便利で、PDF文書をテキストの画像で検索することができます。また、文書内でテキストを直接強調表示することもできます。OCRテキストは、下にある画像と揃えられます。残念ながら、私は名前のない製品の中からインラインOCRをエクスポートしたり保管したりすることを控えることができます。

インラインOCRを実行してエクスポートできる他のソフトウェアはありますか?私は特に、基礎となるイメージに合わせた配置された段落からなるHTMLにエクスポートすることに興味があります。

も参照してください:
https://stackoverflow.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from

+0

を。 (私は「無名」とはそれが所有権であり、あなたがそれが何であるかを知らないわけではないということを意味します)。あなたはOCRを訓練しているか、それとも与えられた文字セットに対して解釈すると仮定していますか? shapecatcher.comはあなたを助けますか?それは標準のUnicodeグリフセットに対してビットマップを実行しますか? –

+0

ありがとうございます。私は、情報を抽出するための完全なOpenSourceソリューションを作成しています(bitbucket.org/petermr/pdf2svg-devとbitbucket.org/petermr/svg2xml-devfrom PDFですが、まだ画像/ OCRの部分はあまり行っていません)。まずANSIに対処しますが、あなたの息を止めないでください。 –

答えて

1

私はあなたのための可能な解決策を持っています。しかし、この特定のソリューションにはいくつかの欠点があり、最終的な目標を妨げる可能性があります。その後http://finereader.abbyyonline.com このソリューションは、用紙のサイズに関するもののために働き、最終的な結果は、イメージオーバーレイとHTMLを持っている、場合http://document.online-convert.com/convert-to-html

でHTMLにPDFに変換:

PDFへの最初の変換イメージファイルあなたが望むのは、イメージを完全に透明にするだけのイメージフォーマットを使ったhtmlです。

関連する問題