2017-09-20 2 views
0

私はコピー制限のないパブリックPDFを持っています。しかし、PDFからWordにテキストをコピーしようとすると、わかりにくい(箱や記号のような)しか読めません。pdfから単語への変換にはごみの内容が表示されます

フォントを変更しようとしましたが、これも機能しませんでした。私はこの問題の原因を理解できません。

また、いくつかのオンラインツールを検索しましたが、どちらも機能していないようです。

ヘルプやアイデアはありますか?

乾杯。

+0

マイナス投票を行う前に、何か間違っていることを知ることは有益でしょう。 – Keynes

+1

分析のために問題のPDFを共有してください。 PDF自体が、強調表示されたテキストがゴミであることを示唆している可能性があります。 PDFでは、テキスト描画命令の文字列は、文字コードがフォント内の所望の描画命令を指し示すように符号化される。文字コードをいくつかのUnicodeコードポイントにマップする追加情報があるかもしれませんが、このマッピングが*正しい*コードポイントに行くという保証はありません。この追加マッピングが不完全であったり、まったく間違っていたりするPDFが多数あります。 – mkl

答えて

3

あなたが試すツールは、この文書を処理することができません(オンライン)すべての場合は、2つのオプションがあります。

  1. は、すべてのツールは、あなたの文書が、私は結論を考える

間違っている

  • 間違っていますnr 2は理にかなっています。 しかし、おそらく私は原因を説明することができます。

    まず、pdfドキュメントはWYSIWYGドキュメントではなく、指示のコンテナと考えるべきです。したがって、テキストを抽出することは、すでに非trival事です。

    ここでの問題は、エンコードの問題であるようです。 文書には、「位置10、50にドローブ」のような指示が含まれています。 (私は例としてアラビア語のテキストを使用しています)

    詳細情報がなくても、Adobeなどの視聴者がコピー貼り付け機能を処理する方法を知ることは非常に困難になります。システムのコピー&ペーストバッファには、グリフは使用されず、ユニコードが使用されます。

    つまり、コピー貼り付けを行う場合、Adobeはグリフを実際のユニコードに変換しようとする必要があります。

    通常、フォントには役立つ情報が含まれています。これを「toUnicode」マップと呼びます。 特定のグリフが特定の文字とどのように一致するかをシステムに通知します。

    フォントにこのようなマッピングが含まれていない場合は、そのフォントを使用すると、正しくコピー貼り付けができなくなります。そして、再度、その文書からのコピー・ペーストを防ぐ方法として、意図的に不具合のあるtoUnicodeマップを生成するプログラムもあります。

    関連する問題