私はPDFを持っており、そこに含まれるテキストを抽出したいと思います。私はいくつかの異なるPDFライブラリを試しました。それらはすべて基本的に同じ結果を返します。文字通り何百もの単語を含む2ページの文書からテキストを抽出すると、ヘッダーからダース程度の単語だけが返されます。要素がテキストかどうかをPDFで調べるにはどうすればよいですか?
私の後のテキストが実際にテキストかテキストのラスタイメージかどうかを確認する方法はありますか?私はFirebugの "Inspect Element"の行に沿って何かを考えていますが、現時点では、私が実際に何を見ているかを示すあらゆる解決策をとるでしょう。
このプロジェクトは、実際にOCRの使用を正当化するものではありません。また、ファイルのジェネレータが第三者であるため、PDFでフィールドを使用するという簡単な解決方法はありません。
サードパーティからロックされたPDFを受け取りますか? –
@ DJ Quimby - いいえ、ロックされたPDFではありません – DenaliHardtail
アクロバットリーダーで開くと、テキストをコピーして貼り付けることができますか?そうでなければ、テキストではありません。または、あなたはプログラムでそれをどうやって行うのですか? –