2016-10-24 4 views
2

私はpdf文書をテキストファイルに変換しようとしていました。私はその判読できない文字が中国の一部のフォントで見るために、出力ファイルを開くまで、すべてがGhostscriptからpdfをテキストファイルに変換すると、出力が読み取れない

「琀攀猀琀」

を働き、この私のコマンドラインで

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 

イム私が何か間違ったこと?

+1

代わりに 'gswin64'と' ghostscript'について質問して、これを再投稿しようとします。あなたのPythonコードは、文字列をシェルに渡すだけです。 –

+0

これはPythonの問題ではありません!コマンドラインだけで試してみましたか? –

+0

@ Jean-FrançoisFabreyea私はコマンドラインでも同じ結果を試しましたが – Claudiga

答えて

2

あなたは(おそらく夕日が含まれています絶対確実であることが、そのことはできませんので、ファイルを投稿していないが....

ほぼ確実にあなたのPDFファイル内のテキストはASCII符号化方式を使用してエンコードされていませんフォント)、および問題のフォント用のToUnicode CMapは含まれていません。さらに、グリフ名は標準的な名前(または名前付きグリフを持たないTrueTypeフォント)ではありません。

上記の情報のいずれもないと、txtwriteは文字コードが表すものを何ら手がかりにしないので、それらをそのまま放っておきます。

あなたが中国の字形を見ているとすれば、元のフォントはCIDFont、恐らくTrueTypeフォント、サブセットであり、ToUnicode CMapはないと思われます。

この場合、テキストを出力する唯一の方法はOCRを使用することです。

+0

* "sunset fonts" * - 非常にロマンチックな...;) – mkl

関連する問題