2016-11-24 10 views
0

私は現在、wicked_pdf(wkhtmltopdf)を使用してhtmlからpdfファイルを作成しています。しかし、私はpdfから内容を正しくコピー&ペーストすることができません。 Webを見て、私はその問題は、PDFにユニコードに戻ってグリフを一致させるための 'to unicode'マップが含まれていない可能性があると推測しています。wkhtmltopdfを使用して 'to Unicode'マップでpdfを生成するには?

例PDF:PDFファイルでhttps://github.com/wkhtmltopdf/wkhtmltopdf/files/611265/sample.pdf

最初の行:वेबचेकूलनहजातेथे。 पूरादनमैदानमघूमतอे。

多くのバリエーションはコピー中に失われます。ここで何が問題になるでしょうか?

また、 'to unicode'マップがpdfファイルに存在するかどうかを確認する方法はありますか。

また、wkhtmltopdf?を使用して 'to unicode'マップを使用してpdfファイルを正しく生成するにはどうすればよいですか。

答えて

0

残念ながら、私はサンプルPDFは

<< /Type /Font 
/Subtype /TrueType 
/BaseFont /WHROBO+NotoSansDevanagari 
/FirstChar 32 
/LastChar 51 
/FontDescriptor 14 0 R 
/Encoding /WinAnsiEncoding 
/Widths [ 259 0 0 0 0 0 0 0 0 0 0 0 0 0 268 0 0 0 0 550 ] 
/ToUnicode 12 0 R 
>> 

のToUnicodeポイントは、ソースに見られるようなのToUnicodeプロパティを持っているあなたの問題を解決する方法を教えてくれますが、...

することはできません。

12 0 obj 
<< /Length 13 0 R 
    /Filter /FlateDecode 
>> 
stream 
    ... 
endstream 
endobj 

このストリームは十分に長くは見えず、幅はフォント定義のWidthsプロパティで設定されません(または文字は含まれません)。私はあなたがdocca.ioを通じて提供される単一のラインのサンプルを実行したときに私が得た:そう

<< /Type /Font 
/Subtype /TrueType 
/Name /F1 
/BaseFont /DOCCAA+NotoSansDevanagari 
/Encoding /MacRomanEncoding 
/FontDescriptor 7 0 R 
/FirstChar 32 
/LastChar 62 
/Widths [260 551 551 551 551 551 551 551 551 551 551 762 591 634 742 570 642 520 555 568 571 598 409 678 556 531 259 488 488 488 379] 
/ToUnicode 8 0 R 
>> 

8 0 obj 
<< /Length 347 
/Filter /FlateDecode 
/Length1 667 >> 
stream 
    ... 
endstream 
endobj 

はるかに長いchar型のマップ、それははるかに少ない文字を持っていたにもかかわらず。

この情報は正しく表示されていますか?あなたのサンプルテキストは私と少し違って見えますが、私はDevanagari 8は読んでいません。 pdf rendered in chrome

関連する問題