こんにちは私はPDFファイルをテキストファイルに変換します。私はPDFファイルをテキストファイルに変換しています。しかし、それは正確にPDFファイルにあるテキストのフォーマットを保持しません。PDFをテキストファイルに変換してPDFのフォーマットを保存するにはどうすればよいですか?
私を助けてください。
こんにちは私はPDFファイルをテキストファイルに変換します。私はPDFファイルをテキストファイルに変換しています。しかし、それは正確にPDFファイルにあるテキストのフォーマットを保持しません。PDFをテキストファイルに変換してPDFのフォーマットを保存するにはどうすればよいですか?
私を助けてください。
テキストファイル自体には書式設定を含めることはできません。
プレーンテキストファイルにはテキストしか含まれていないため、書式設定を保持することはできません。テキストファイルの中にHTMLマークアップがあるかもしれませんが、私はこれをHTMLファイルと呼んでいます。それ以外の場合は、リッチテキスト形式(RTF)、Microsoft Word、OpenOffice、またはその他のドキュメントタイプに変換する必要があります。 PDFBoxはエリック・ロバートソンが
を言ったように、それはいくつかの書式を失うことがあり、このためのお手伝いをします
これはあなたを助けることができるPDF Text Parser: Converting PDF to Text in Java using PDFBox
を参照してください。
File f = new File(fileName);
if (!f.isFile()) {
return null;
}
try {
parser = new PDFParser(new FileInputStream(f));
} catch (Exception e) {
return null;
}
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
/* pdfStripper.setStartPage(2);
pdfStripper.setEndPage(3);*/
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
} catch (Exception e) {
System.out.println("An exception occured in parsing the PDF Document.");
e.printStackTrace();
try {
if (cosDoc != null) cosDoc.close();
if (pdDoc != null) pdDoc.close();
} catch (Exception e1) {
e.printStackTrace();
}
return null;
}
なぜこれをやりたいですか?あなたは間違った方向にいます... –