ファイルを抽出するコマンドはjava -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf
です。同じものの出力です。ExtractTextコマンドラインツールを使用しているときに空白文字を抽出しています
This%is%one%
This%is%two%
This%is%three%
This%is%four%
PDFDebuggerでpdfを確認しました。私は
Code Glyph Name Unicode Character Glyph
37 1 % None
問題を抱えた「%」の次のエントリを参照してくださいあなたはユニコードがあるときに、適切な場合にテキストを抽出する方法を喜ばが、グリフが存在しないことはできますか?私は以下の出力を期待しています。その "%"文字はpdfにレンダリングされません。
This is one
This is two
This is three
This is four
入力PDFファイルはhereです。
何が問題なのですか?あなたは何を期待していますか? 「困った」「%」とは何ですか?最も重要なことは、 'DiffSzSpaceIssue.pdf'にあるものと、あなたが間違っている出力がなぜですか?あなたは、PDFファイルに含まれているものを見るためのエディタを調べましたか? –
ちょっと@ジム、より明確になるように質問を編集しました。文字「%」(それがどこから来たかわからない)は、グラフィカルに相当するものがマップされていないため、pdfによってレンダリングされることはありません。 – kaza
これはPDFBoxのサポート[usersメーリングリスト](https://pdfbox.apache.org/mailinglists.html)の方がバグである可能性が高いので、これはより適切だと思います。 –