1
私はpngファイルとpdfファイルでOCRを実行したいと思います.Tesseract 3.0.2 .netラッパーはpngファイルのために動作しますが、PDfファイル用のクラスは見つかりません。 pdf files.Ifしていない場合は、私にpdfをスキャンするための他のオープンソースライブラリを教えてください。私の要件は、特定のサークルのpdfで図をスキャンし、それらのサークルのハイパーリンクを作成することです。.netのtesseract OCRはpdfファイルと連携しますか?
これらのpdfファイルをイメージに変換してから、Tesseractを使用して変換することができます。 PDFファイルを扱うことができるNuanceのような市販のライブラリがいくつかあります。価格はかなり高いです。 –
ghostscriptを使ってpdfsをpngに無料で変換することができます。私は数時間で私の机にいますので、私の実装を分かち合うことができます。私は別のSOの投稿からそれを見つけました。 –
PDF解析用にPDFBoxを試しましたか?無料のPDFBox? – Kiquenet