私は最近、Xpdfの一部であるpdftotext
コマンドを使用してテキストベースのPDFをテキストに変換できるようにLinuxサーバーを設定しました。画像ベースのPDFをテキストに変換するにはgs
( Ghostscript)とtesseract
コマンドです。PHPで "text" PDFと "image" PDFを区別する方法は?
どちらのソリューションも、PDFがテキストベースであるのか画像ベースであるのかが分かっていればうまく機能します。しかし、多くのPDFをテキストに変換するプロセスを自動化するためには、PDFがテキストベースであるかイメージベースであるかを知る必要があるため、PDFで実行するプロセスのセットを知る必要があります。
PHPでPDFを分析して、それがテキストベースであるかイメージベースであるかを判断して、XpdfまたはGhostscript/Tesseractを使用するかどうかを知る方法はありますか?
両方の組み合わせがあればどうなりますか? – cmorrissey
そのようなことが起こった場合、Xpdfの 'pdftotext'をファイル上で実行すれば十分でしょうか?いずれにしても、2つまたは3つの異なるタイプのPDFがあるかどうかにかかわらず、それらを区別してテキストを処理する方法を知る必要があります。ありがとう。 – HartleySan
私はPDFに対して両方のスクリプトを実行すると、出力を比較する必要があります。 – cmorrissey