pdfのx、yウィンドウ内のOCR

セットアップファイルでx、y座標を設定できるオープンソースまたはLinuxベースのユーティリティが必要です。私はその後、pdfを連続して開き、最初の姓と口座番号を文書で調べ、姓とファイル番号からなるファイル名でファイルを保存します。pdfのx、yウィンドウ内のOCR

出典

2011-01-08 iquotient

あなたはまずこれらの答えの一部を読むことをお勧めします：上記

の答えは、Linux固有のものではありません。

ほとんどのPDF文書は、テキストがPDF内に含まれているため、OCRされている必要はありません。 JavaのiText（http://itextpdf.com/）はおそらく、Linux上でPDFテキスト文字列を抽出するための最良のツールキットです。別のオプションはhttp://pdfbox.apache.org/

です。実際に抽出するテキストがイメージの場合は、PDF全体のページをTIFFなどのイメージフォーマットに変換し、Google Tesseract OCRなどのOCRエンジンに渡す必要があります。

出典

2011-01-08 11:27:27

pdfのx、yウィンドウ内のOCR

答えて

関連する問題