2011-08-09 23 views
45

PDF文書からテキストを抽出する方法を使用していますか?PDF文書からテキストを抽出するには?

(私は他のツールを使用することはできません、私はrootアクセス権を持っていない)

私は、プレーンテキストのために働いて、いくつかの機能を見つけたが、彼らはうまくUnicode文字を処理しません。

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

+0

は、あなたがこれを解決していホープ? –

+0

リンクが動作しません!是正してください! – cwiggo

+12

なぜこの質問は非常に有用なので、この質問はトピック以外のものとみなされません。たとえそれが「意見のある」回答を引き付けても、常に異なる意見を見る方が良いです。あまりにも多くのヒットをしています。 – user3574492

答えて

43

ダウンロードclass.pdf2text.php @またはhttp://www.phpclasses.org/browse/file/31030.html(登録が必要)(2014年4月5日に更新)https://pastebin.com/dvwySU1a

コード:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output(); 

クラスは、私がテストしたすべてのPDFのでは動作しそれを試してみると、上記の動作しない場合は、http://pdfparser.org/

を試してみてくださいあなたは幸運:)


を得ることができていません

+2

ここにpdfファイルのテーブルがあれば、それは表示されません。私はそれがpdfに添付されたスキャンされたイメージのテキストも表示しているので、抽出したいと思います。それのための任意の解決策? –

+0

ありがとうございました...そのクラスは非常に便利です。これで私はpdfからちょうどurlが欲しい。それを見つける方法は? –

+0

このクラスには、 'headers already sent'エラーを引き起こす出力バッファフラッシュが含まれています。あなたがそれを無効にしても、(合理的なサイズの文書では)悪影響はないようです。 –

9

このトピックはかなり古くなっていますが、このニーズはまだ生きています。 私は多くの文書、フォーラム、スクリプトを読んで、圧縮と非圧縮のPDFファイルをサポートする新しい高度なものを構築:

https://gist.github.com/smalot/6183152

はそれがeverone

+0

スクリプトで出力が得られていないようです。テストされたPDFがありますか? –

+0

これは私のために働いた!ありがとう – kakoma

+0

私はここで良いものを見つけました:https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh

関連する問題