0
pdfファイルからテキストを抽出しようとしています。テキストはAcrobatで選択できます。 Acrobatでは、タイプがTrueType(CID)でエンコーディング:Identity-HのArialUnicodeMSフォントが一覧表示されます。スニペットiTextでID-Hエンコードテキストを抽出する
PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);
を使用して
私は戻って何かを取得していますが、標準出力またはファイルに出力するときには、(出力が空白文字のように見える)読めないです。 Identity-Hエンコードされたテキストをどのように抽出できますか?
ありがとうございます。私はそれを読むために私のpdfを変更することはできません。私は明らかに問題がないpdfboxに切り替えました。 – ipavlic