2012-04-18 6 views
0

これを解決する最善の方法は、 "xpdf"パッケージ内の "pdftotext"を使用することでした。私は、php.net上のpdf2string()という関数のようなphpだけを使用する代わりのmetodsを見つけましたが、それらの関数のどれもが期待どおりに動作しませんでした。(いくつかのpdfファイルでは正しいテキストを出力せず、彼らは何も出力しなかったし、この機能のいくつかの他のバージョンはまったく動作しませんでしたので、このオプションを除外しました)。オープンソースのpdftotextをPHPスクリプトに変換する方法はありますか? (ソースはC++であり、ここで見つけることができます:http://www.foolabs.com/xpdf/download.html)。 pdfのテキスト出力(正しいもの)を教えてください。pdfをphpのテキストファイルに変換する(注:shell_execは無効になります)

+0

おそらく、最良の解決策は、試したPHPライブラリがうまくいかなかった理由を理解することです。あなたは、あなたが使ったものとそれぞれのものとを特定する必要があります。あなたがPHPの中でpdftotextを再実装したい人を見つけるよりも、彼らがどのように動作し、問題を解決するかを知っている誰かを見つけることができるでしょう... – octern

+0

@octern私は知らないpdf(と私はinteresedではないので)なぜ彼らは仕事をしなかったのか把握できません –

+0

より良いホストを見つける。 –

答えて

3

あなたには制限された環境があるので、これを見てください。 http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

これは、pdfからテキスト形式を解析するために外部ライブラリを使用しません。 しかし、このpdf形式のテキストを解析するので、どれくらい安定しているのかわかりません。

+0

私は3つのlooooongの夜のためにそのウェブサイトを見て、私の問題に解決策を呼び出すために何も得られなかった。その機能は部分的には機能しましたが、一部のpdfファイルでは機能しませんでした –

+0

私が言ったように、私はそのコードがいかに安定しているかわかりません。あなたのサーバはpopenクラスの関数をサポートしていますか(疑問です)?それはpdf2textでそれを行う別の方法になります。 –

+0

いいえサポートしていませんpopen() –

関連する問題