pdfbox
を使用してpdfからテキストを抽出しようとしています。しかし、私はテーブルからすべてのテキストを抽出することができません。私は(オレンジ色)第一テーブルからテキストを取得することができる午前PdfBox - PDFからテキストを抽出できません
(一部の機密テキストが強調されている)
(PDFファイルから切り取ら)下の画像を参照してください3番目のテーブル(一般情報1)。しかし、私は2番目のテーブルから何かを抽出することができません。
出力では、1番目と3番目のテーブルの出力の間に2つの空白行が表示されます。
ここに私のコードです。
PDDocument doc = PDDocument.load(new File("...."));
PDFTextStripper pdfStripper = new PDFTextStripper();
String text = pdfStripper.getText(doc);
System.out.println(text);
doc.close();
入力や提案はありますか?
これは再現可能なPDFを提供する必要があります。 –
https://pdfbox.apache.org/2.0/faq.html#notext「PDF文書からテキストを取得できないのはなぜですか?」 –
Adobe Readerからそのテキストをコピー&ペーストできますか? – mkl