テーブルからいっぱいのPDFからテキストを抽出しようとしています。 場合によっては、列が空です。 PDFからテキストを抽出すると、emptysの列がスキップされ、空白に置き換えられます。したがって、私の正規表現では、この場所に情報のない列があることがわかりません。PDFBox:テキストを抽出するときにPDF構造を維持する
画像をよりよく理解する:
:私たちは列をPDFからテキストを抽出する私のコードの抽出されたテキスト
サンプルで尊重されていないことがわかります
PDFTextStripper reader = new PDFTextStripper();
reader.setSortByPosition(true);
reader.setStartPage(page);
reader.setEndPage(page);
String st = reader.getText(document);
List<String> lines = Arrays.asList(st.split(System.getProperty("line.separator")));
元のPDFのテキストを抽出する際、元のPDFの完全な構造を維持するにはどうすればよいですか?
ありがとうございます。
tablob javaのようなツールを試してください。これはPDFBoxの上にあります。 PDFBoxはテーブルを識別しようとしません。 –
Leor、PDFTextStripperの変種がPDFに余裕がある余分なスペースを挿入しようとすると興味がある場合は、[削除した質問に回答した]をコピーします(https ://stackoverflow.com/a/28370692/1729265)をご利用ください。 – mkl
@mklあなたの解決策が役立つかもしれません。追加された余分なスペースが常に(文字数の点で)同じ場合は、ジョブを実行できます。 – Leor