PdfBox - PDFからテキストを抽出できません

pdfboxを使用してpdfからテキストを抽出しようとしています。しかし、私はテーブルからすべてのテキストを抽出することができません。私は（オレンジ色）第一テーブルからテキストを取得することができる午前PdfBox - PDFからテキストを抽出できません

（一部の機密テキストが強調されている）

（PDFファイルから切り取ら）下の画像を参照してください3番目のテーブル（一般情報1）。しかし、私は2番目のテーブルから何かを抽出することができません。

出力では、1番目と3番目のテーブルの出力の間に2つの空白行が表示されます。

ここに私のコードです。

PDDocument doc = PDDocument.load(new File("....")); 
PDFTextStripper pdfStripper = new PDFTextStripper(); 
String text = pdfStripper.getText(doc); 
System.out.println(text); 
doc.close();

入力や提案はありますか？

出典

2016-12-04 AgentX

これは再現可能なPDFを提供する必要があります。 –

https://pdfbox.apache.org/2.0/faq.html#notext「PDF文書からテキストを取得できないのはなぜですか？」 –

Adobe Readerからそのテキストをコピー＆ペーストできますか？ – mkl

問題が見つかりました。内容は表示されていたが、再配置されていた。

PDFには2つのテーブルが順番に配置されていました。この表の内容は、その直後に置かれたいくつかの表の内容の後に表示されていました。たとえば、6つのテーブルがあり、これが上から2番目のテーブルだったとします。コンテンツは2位の代わりに5位に表示されています。

Tilmanで示されているように、pdfStripper.setSortByPosition(true)を使用すると、予想される場所に期待されるコンテンツが表示されます。

出典

2016-12-05 05:08:08 AgentX

setSortByPosition（）メソッドを使用します。これがなければ、シーケンス内の文字をPDF自体から得ることができます。これは有用かもしれません。 –

@TilmanHausherrありがとう、これは問題を解決しました！ – AgentX

PdfBox - PDFからテキストを抽出できません

答えて

関連する問題