2017-08-18 22 views
-1

私は、Javaプログラムを使用してPDFからテキストデータを抽出しています。PDFからテキストデータを抽出する

私はPDFのこのタイプを使用する場合、私は何の問題もない:

enter image description here

をしかし、私は抽出を行わないこのタイプを使用する場合:

enter image description here

はあなたにどんな考えを持っていますこの問題を解決するには?

+2

両方の写真はまったく同じです。あなたは何を見せたいですか? – Aman

+1

これは2つの同一の画像です。 – notanormie

+1

私は物事の署名が問題です。 PDFは2つのソースから来ることができます:ソフトウェアから、ベクトルの考え方を構築し、スキャナからのビットマップのエンベロープ –

答えて

1

は、コードiText7を使用して、次の試してみてください。

File inputFile = new File("path_to_your_pdf"); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String text = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1)); 
pdfDocument.close(); 

を、私たちは出力が何であるかを知ってみましょう。そして、あなたが期待していたものと一致するかどうか。

@mklが指摘しているように、これは単にフォームフィールドを抽出するかどうかの違いかもしれません。いずれにしても、あなたのpdfへのリンクは非常に高く評価されます。いくつかのコードだけでなく。

もちろん、iTextを使って両方を抽出することができます。

読み物:

関連する問題