iTextでID-Hエンコードテキストを抽出する

pdfファイルからテキストを抽出しようとしています。テキストはAcrobatで選択できます。 Acrobatでは、タイプがTrueType（CID）でエンコーディング：Identity-HのArialUnicodeMSフォントが一覧表示されます。スニペットiTextでID-Hエンコードテキストを抽出する

PdfReader reader = new PdfReader(filePath); 
String content = PdfTextExtractor.getTextFromPage(reader, 1);

を使用して

私は戻って何かを取得していますが、標準出力またはファイルに出力するときには、（出力が空白文字のように見える）読めないです。 Identity-Hエンコードされたテキストをどのように抽出できますか？

出典

2011-11-09 ipavlic

あなたのpdfをバージョン1.2に設定しようとしましたが、identity-Hエンコーディングはフォントの2バイトエンコーディングです。これは主にアジアのフォントに使用され、Indesignはpdfを生成しました。

あなたのpdfに勾配、トランスパランスなどの機能がない場合は、試してみることができます（前にあなたのpdfのバックアップをとる前に、私は長いショットの前に言ったように、大声で考えています）

出典

2011-11-10 10:32:16

ありがとうございます。私はそれを読むために私のpdfを変更することはできません。私は明らかに問題がないpdfboxに切り替えました。 – ipavlic

iTextでID-Hエンコードテキストを抽出する

答えて

関連する問題