2017-09-02 12 views
-1

ファイルを抽出するコマンドはjava -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdfです。同じものの出力です。ExtractTextコマンドラインツールを使用しているときに空白文字を抽出しています

This%is%one% 
This%is%two% 
This%is%three% 
This%is%four% 

PDFDebuggerでpdfを確認しました。私は

Code Glyph Name Unicode Character Glyph 
37 1   %     None 

問題を抱えた「%」の次のエントリを参照してくださいあなたはユニコードがあるときに、適切な場合にテキストを抽出する方法を喜ばが、グリフが存在しないことはできますか?私は以下の出力を期待しています。その "%"文字はpdfにレンダリングされません。

This is one 
This is two 
This is three 
This is four 

入力PDFファイルはhereです。

+0

何が問題なのですか?あなたは何を期待していますか? 「困った」「%」とは何ですか?最も重要なことは、 'DiffSzSpaceIssue.pdf'にあるものと、あなたが間違っている出力がなぜですか?あなたは、PDFファイルに含まれているものを見るためのエディタを調べましたか? –

+0

ちょっと@ジム、より明確になるように質問を編集しました。文字「%」(それがどこから来たかわからない)は、グラフィカルに相当するものがマップされていないため、pdfによってレンダリングされることはありません。 – kaza

+0

これはPDFBoxのサポート[usersメーリングリスト](https://pdfbox.apache.org/mailinglists.html)の方がバグである可能性が高いので、これはより適切だと思います。 –

答えて

1

Unicodeマッピングが一部のpdfsで間違っていることがあります。このような場合、Unicodeマッピングを削除して抽出を再試行する必要があることがあります。この質問は、マッピングが間違っている箇所を明確に指摘しています。 %->None(Unicode-> Glyph) https://stackoverflow.com/a/45922162/6935152

+0

試してみる機会がありませんでした。しかし、これは動作しない場合は投稿します。 – kaza

関連する問題