Ghostscriptからpdfをテキストファイルに変換すると、出力が読み取れない

私はpdf文書をテキストファイルに変換しようとしていました。私はその判読できない文字が中国の一部のフォントで見るために、出力ファイルを開くまで、すべてがGhostscriptからpdfをテキストファイルに変換すると、出力が読み取れない

「琀攀猀琀」

を働き、この私のコマンドラインで

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf

イム私が何か間違ったこと？

2016-10-24 Claudiga

代わりに 'gswin64'と' ghostscript'について質問して、これを再投稿しようとします。あなたのPythonコードは、文字列をシェルに渡すだけです。 –

これはPythonの問題ではありません！コマンドラインだけで試してみましたか？ –

@ Jean-FrançoisFabreyea私はコマンドラインでも同じ結果を試しましたが – Claudiga

あなたは（おそらく夕日が含まれています絶対確実であることが、そのことはできませんので、ファイルを投稿していないが....

ほぼ確実にあなたのPDFファイル内のテキストはASCII符号化方式を使用してエンコードされていませんフォント）、および問題のフォント用のToUnicode CMapは含まれていません。さらに、グリフ名は標準的な名前（または名前付きグリフを持たないTrueTypeフォント）ではありません。

上記の情報のいずれもないと、txtwriteは文字コードが表すものを何ら手がかりにしないので、それらをそのまま放っておきます。

あなたが中国の字形を見ているとすれば、元のフォントはCIDFont、恐らくTrueTypeフォント、サブセットであり、ToUnicode CMapはないと思われます。

この場合、テキストを出力する唯一の方法はOCRを使用することです。

2016-10-25 07:13:06 KenS

* "sunset fonts" * - 非常にロマンチックな...;） – mkl

答えて