Javaを使用してPDFページにテキストが含まれているのか、PDFページにテキストが含まれているかどうかを確認するか、純粋に画像であるかどうかを確認する
私は多くのフォーラムやウェブサイトを通じて検索が、私はまだ答えを見つけることができません。
それはページがフォーマットの画像やテキストであるかどうかを知るために、PDFからテキストを抽出することは可能ですか?
PdfReader reader = new PdfReader(INPUTFILE);
PrintWriter out = new PrintWriter(new FileOutputStream(OUTPUTFILE));
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
// here I want to test the structure of the page !!!! if it's possible
out.println(PdfTextExtractor.getTextFromPage(reader, i));
}
これはかなり正確に関わっているようです。多分あなたはここに恩恵を必要とするでしょう – Coffee
アデルさんありがとうございました私はそう願っています:) –