PDF文書からテキストを抽出するには？

PDF文書からテキストを抽出する方法を使用していますか？PDF文書からテキストを抽出するには？

（私は他のツールを使用することはできません、私はrootアクセス権を持っていない）

私は、プレーンテキストのために働いて、いくつかの機能を見つけたが、彼らはうまくUnicode文字を処理しません。

2011-08-09 Sfisioza

は、あなたがこれを解決していホープ？ –

リンクが動作しません！是正してください！ – cwiggo

+12

なぜこの質問は非常に有用なので、この質問はトピック以外のものとみなされません。たとえそれが「意見のある」回答を引き付けても、常に異なる意見を見る方が良いです。あまりにも多くのヒットをしています。 – user3574492

ダウンロードclass.pdf2text.php @またはhttp://www.phpclasses.org/browse/file/31030.html（登録が必要）（2014年4月5日に更新）https://pastebin.com/dvwySU1a

コード：

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output();

クラスは、私がテストしたすべてのPDFのでは動作しそれを試してみると、上記の動作しない場合は、http://pdfparser.org/

を試してみてくださいあなたは幸運:)

を得ることができていません

2011-08-09 18:53:25

ここにpdfファイルのテーブルがあれば、それは表示されません。私はそれがpdfに添付されたスキャンされたイメージのテキストも表示しているので、抽出したいと思います。それのための任意の解決策？ –

ありがとうございました...そのクラスは非常に便利です。これで私はpdfからちょうどurlが欲しい。それを見つける方法は？ –

このクラスには、 'headers already sent'エラーを引き起こす出力バッファフラッシュが含まれています。あなたがそれを無効にしても、（合理的なサイズの文書では）悪影響はないようです。 –

このトピックはかなり古くなっていますが、このニーズはまだ生きています。私は多くの文書、フォーラム、スクリプトを読んで、圧縮と非圧縮のPDFファイルをサポートする新しい高度なものを構築：

はそれがeverone

2013-08-08 09:39:37

スクリプトで出力が得られていないようです。テストされたPDFがありますか？ –

これは私のために働いた！ありがとう – kakoma

私はここで良いものを見つけました：https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh

答えて