2011-01-08 8 views
2

セットアップファイルでx、y座標を設定できるオープンソースまたはLinuxベースのユーティリティが必要です。私はその後、pdfを連続して開き、最初の姓と口座番号を文書で調べ、姓とファイル番号からなるファイル名でファイルを保存します。pdfのx、yウィンドウ内のOCR

答えて

2

あなたはまずこれらの答えの一部を読むことをお勧めします:上記

の答えは、Linux固有のものではありません。

ほとんどのPDF文書は、テキストがPDF内に含まれているため、OCRされている必要はありません。 JavaのiText(http://itextpdf.com/)はおそらく、Linux上でPDFテキスト文字列を抽出するための最良のツールキットです。別のオプションはhttp://pdfbox.apache.org/

です。実際に抽出するテキストがイメージの場合は、PDF全体のページをTIFFなどのイメージフォーマットに変換し、Google Tesseract OCRなどのOCRエンジンに渡す必要があります。