PDF文書からテキストを抽出する方法を使用していますか?PDF文書からテキストを抽出するには?
(私は他のツールを使用することはできません、私はrootアクセス権を持っていない)
私は、プレーンテキストのために働いて、いくつかの機能を見つけたが、彼らはうまくUnicode文字を処理しません。
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
PDF文書からテキストを抽出する方法を使用していますか?PDF文書からテキストを抽出するには?
(私は他のツールを使用することはできません、私はrootアクセス権を持っていない)
私は、プレーンテキストのために働いて、いくつかの機能を見つけたが、彼らはうまくUnicode文字を処理しません。
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
ダウンロードclass.pdf2text.php @またはhttp://www.phpclasses.org/browse/file/31030.html(登録が必要)(2014年4月5日に更新)https://pastebin.com/dvwySU1a
コード:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
クラスは、私がテストしたすべてのPDFのでは動作しそれを試してみると、上記の動作しない場合は、http://pdfparser.org/
を試してみてくださいあなたは幸運:)を得ることができていません
ここにpdfファイルのテーブルがあれば、それは表示されません。私はそれがpdfに添付されたスキャンされたイメージのテキストも表示しているので、抽出したいと思います。それのための任意の解決策? –
ありがとうございました...そのクラスは非常に便利です。これで私はpdfからちょうどurlが欲しい。それを見つける方法は? –
このクラスには、 'headers already sent'エラーを引き起こす出力バッファフラッシュが含まれています。あなたがそれを無効にしても、(合理的なサイズの文書では)悪影響はないようです。 –
このトピックはかなり古くなっていますが、このニーズはまだ生きています。 私は多くの文書、フォーラム、スクリプトを読んで、圧縮と非圧縮のPDFファイルをサポートする新しい高度なものを構築:
https://gist.github.com/smalot/6183152
はそれがeverone
スクリプトで出力が得られていないようです。テストされたPDFがありますか? –
これは私のために働いた!ありがとう – kakoma
私はここで良いものを見つけました:https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh
は、あなたがこれを解決していホープ? –
リンクが動作しません!是正してください! – cwiggo
なぜこの質問は非常に有用なので、この質問はトピック以外のものとみなされません。たとえそれが「意見のある」回答を引き付けても、常に異なる意見を見る方が良いです。あまりにも多くのヒットをしています。 – user3574492