2011-11-09 11 views
0

pdfファイルからテキストを抽出しようとしています。テキストはAcrobatで選択できます。 Acrobatでは、タイプがTrueType(CID)でエンコーディング:Identity-HのArialUnicodeMSフォントが一覧表示されます。スニペットiTextでID-Hエンコードテキストを抽出する

PdfReader reader = new PdfReader(filePath); 
String content = PdfTextExtractor.getTextFromPage(reader, 1); 

を使用して

私は戻って何かを取得していますが、標準出力またはファイルに出力するときには、(出力が空白文字のように見える)読めないです。 Identity-Hエンコードされたテキストをどのように抽出できますか?

答えて

0

あなたのpdfをバージョン1.2に設定しようとしましたが、identity-Hエンコーディングはフォントの2バイトエンコーディングです。これは主にアジアのフォントに使用され、Indesignはpdfを生成しました。

あなたのpdfに勾配、トランスパランスなどの機能がない場合は、試してみることができます(前にあなたのpdfのバックアップをとる前に、私は長いショットの前に言ったように、大声で考えています)

+0

ありがとうございます。私はそれを読むために私のpdfを変更することはできません。私は明らかに問題がないpdfboxに切り替えました。 – ipavlic

関連する問題