2011-11-07 3 views
3

私はPDF2XLというソフトウェアを持っています。これは通常、PDFファイルからデータのテーブルを抽出するのに最適です。以前私は数百のファイルでそれを使ってきました。PDFデータの抽出には記号/ぎこちがありますか?

しかし、この1つのファイルは、私がこのテキストエリアに正しくコピー&ペーストすることができないと思っても馬鹿げた出力を与えます。あらゆる種類のユニコード不思議。

エクセル/メモ帳に通常の方法でコピーして貼り付けると同じ問題が発生します。

私はそれがPDFファイルの文字エンコーディングヘッダーが乱雑になると考えていますか?これをどうやって変更できますか?私はWindows上にあり、PDFを編集できるソフトウェアがないので、編集/再保存が必要な場合は、無料のSWを使用してください。

ありがとうございます!

+0

ファイルへのリンクを共有してください。私は何が問題かもしれないかを見つけようとします。 – Bobrovsky

答えて

5

基本的にカスタムエンコードされたサブセットフォントが使用されるPDFファイルがますます増加しています。通常、PDFのフォント記述子には、テキスト抽出によってフォントエンコーディングをデコードして正しいテキストを返すToUnicodeテーブルが必要です。

一部のPDFプロデューサーは、財務レポートなどのPDFテキストの抽出を簡単に防止する目的でこれを行っています。フォントが1つしかない場合は、手動でフォントをデコードすることができますが、私の経験では、PDFを複数のランダムなエンコーディングで見ているため、自動的にデコードすることはほとんど不可能です。

これらのタイプのPDFをテストする1つの方法は、Acrobatでファイルを開き、テキストを選択してコピーしてメモ帳に貼り付けることです。テキストが文字化けしている場合、PDFはサブセット化されたフォントを使用しており、それ以上のことはできません。 Acrobatがテキストを正しく抽出できない場合は、他には何もできません。それはまた、象形文字のページかもしれません。

+1

もう一度この問題に直面してください。それをグーグルで、トップヒットは私自身のSOの質問でした。私は解決策がスクリーンショットを取って、代わりにOCRソフトウェアを使って実行すると考えています... – Codemonkey

+0

OCRの結果がスクリーンショットで十分に正確でない場合は、PDFファイルを画像ファイルにレンダリングすることもできます。 –

+0

あなたはどうやってアンドリューをやっていますか?この例では、それはありましたが、知っておくとよいでしょうし、おそらくもっと簡単かもしれません。ありがとう – Codemonkey

関連する問題