2017-08-04 22 views
-2

私は、請求書の請求書番号、請求書日付、税額、および価格をJavaで抽出することはできません。請求書はスキャンされ、PDFとして保存されます。誰もがこれに対して比較的簡単な可能性を知っていますか?スキャンした請求書から請求書番号、インボイス日付などを抽出します。(PDF)(PDF)(Java)

+0

はい、それは可能です:P – xander

+0

うーん...多分。それはPDFによって異なります。しかし、実際には、請求書を生成したプログラムが別の形式で詳細を出力するようにする方がずっと良い(そして簡単です)。 –

答えて

1

これは完全に可能です。あなたのPDFファイルからテキストを抽出する

  • 使用iText7コアは、その後、通常の使用:あなたは、少なくとも2つのことを行うことができ、ためになるだろう何文脈どのくらいあなたが費やすことをいとわない努力、とに応じて、そのテキスト内に何かを見つける表現

  • 請求書(または他のpdf文書)をテンプレート文書に一致させるためにpfd2Data(iText7のアドオン)を使用します。一致が成功すると、pdf2Dataは、(テンプレートで指定した)pdfのすべてのデータを含むXMLファイルを生成します。 XMLデータソースからデータを抽出するのは簡単ではありません。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates