PDFファイルからテキストを読み込み、その後、Pythonを使用して同じテキストを別のPDFに書き戻そうとしています。テキストが読み込まれた後、私はコンソールにそれを印刷した文字列の表現は次のとおりです。合字でPDFファイルを読み書きする?
Officially, it’s called
しかし、私はこのテキスト文字列のrepr()
を印刷するとき、私は以下を参照してください。
O\xef\xac\x83cially, it\xe2\x80\x99s called
これは私にとって意味のあるものです。これらはPDFの記号の合字です。つまり\ xef \ xac \ x83は 'ff'の合字を表します。問題は、私はReportLabのライブラリを使用して、PDFにこの文字列を記述する際に下図のように、PDFファイルは、所定の位置に黒のシンボルを持っていることです。
これが唯一の特定の合字で発生します。私は、PDFに書き込む文字列にこれらの合字が含まれていないか、またはそれらのすべてを置き換える効率的な方法があるように、私ができることが何であるか疑問に思っています。
ここではどのフォントを使用していますか? 'ffi'合字を含んでいますか? – usr2564301