PDFデータの抽出には記号/ぎこちがありますか？

私はPDF2XLというソフトウェアを持っています。これは通常、PDFファイルからデータのテーブルを抽出するのに最適です。以前私は数百のファイルでそれを使ってきました。PDFデータの抽出には記号/ぎこちがありますか？

しかし、この1つのファイルは、私がこのテキストエリアに正しくコピー＆ペーストすることができないと思っても馬鹿げた出力を与えます。あらゆる種類のユニコード不思議。

エクセル/メモ帳に通常の方法でコピーして貼り付けると同じ問題が発生します。

私はそれがPDFファイルの文字エンコーディングヘッダーが乱雑になると考えていますか？これをどうやって変更できますか？私はWindows上にあり、PDFを編集できるソフトウェアがないので、編集/再保存が必要な場合は、無料のSWを使用してください。

ありがとうございます！

出典

2011-11-07 Codemonkey

ファイルへのリンクを共有してください。私は何が問題かもしれないかを見つけようとします。 – Bobrovsky

基本的にカスタムエンコードされたサブセットフォントが使用されるPDFファイルがますます増加しています。通常、PDFのフォント記述子には、テキスト抽出によってフォントエンコーディングをデコードして正しいテキストを返すToUnicodeテーブルが必要です。

一部のPDFプロデューサーは、財務レポートなどのPDFテキストの抽出を簡単に防止する目的でこれを行っています。フォントが1つしかない場合は、手動でフォントをデコードすることができますが、私の経験では、PDFを複数のランダムなエンコーディングで見ているため、自動的にデコードすることはほとんど不可能です。

これらのタイプのPDFをテストする1つの方法は、Acrobatでファイルを開き、テキストを選択してコピーしてメモ帳に貼り付けることです。テキストが文字化けしている場合、PDFはサブセット化されたフォントを使用しており、それ以上のことはできません。 Acrobatがテキストを正しく抽出できない場合は、他には何もできません。それはまた、象形文字のページかもしれません。

出典

2012-10-04 02:28:27

もう一度この問題に直面してください。それをグーグルで、トップヒットは私自身のSOの質問でした。私は解決策がスクリーンショットを取って、代わりにOCRソフトウェアを使って実行すると考えています... – Codemonkey

OCRの結果がスクリーンショットで十分に正確でない場合は、PDFファイルを画像ファイルにレンダリングすることもできます。 –

あなたはどうやってアンドリューをやっていますか？この例では、それはありましたが、知っておくとよいでしょうし、おそらくもっと簡単かもしれません。ありがとう – Codemonkey

PDFデータの抽出には記号/ぎこちがありますか？

答えて

関連する問題