私はpdf文書をテキストファイルに変換しようとしていました。私はその判読できない文字が中国の一部のフォントで見るために、出力ファイルを開くまで、すべてがGhostscriptからpdfをテキストファイルに変換すると、出力が読み取れない
「琀攀猀琀」
を働き、この私のコマンドラインで
gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf
イム私が何か間違ったこと?
私はpdf文書をテキストファイルに変換しようとしていました。私はその判読できない文字が中国の一部のフォントで見るために、出力ファイルを開くまで、すべてがGhostscriptからpdfをテキストファイルに変換すると、出力が読み取れない
「琀攀猀琀」
を働き、この私のコマンドラインで
gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf
イム私が何か間違ったこと?
あなたは(おそらく夕日が含まれています絶対確実であることが、そのことはできませんので、ファイルを投稿していないが....
ほぼ確実にあなたのPDFファイル内のテキストはASCII符号化方式を使用してエンコードされていませんフォント)、および問題のフォント用のToUnicode CMapは含まれていません。さらに、グリフ名は標準的な名前(または名前付きグリフを持たないTrueTypeフォント)ではありません。
上記の情報のいずれもないと、txtwriteは文字コードが表すものを何ら手がかりにしないので、それらをそのまま放っておきます。
あなたが中国の字形を見ているとすれば、元のフォントはCIDFont、恐らくTrueTypeフォント、サブセットであり、ToUnicode CMapはないと思われます。
この場合、テキストを出力する唯一の方法はOCRを使用することです。
* "sunset fonts" * - 非常にロマンチックな...;) – mkl
代わりに 'gswin64'と' ghostscript'について質問して、これを再投稿しようとします。あなたのPythonコードは、文字列をシェルに渡すだけです。 –
これはPythonの問題ではありません!コマンドラインだけで試してみましたか? –
@ Jean-FrançoisFabreyea私はコマンドラインでも同じ結果を試しましたが – Claudiga