PHPを使用してPDFからコンテンツを抽出する

PHPを使用してPDFドキュメントからコンテンツを抽出する方法を教えてください。ここでは、書式設定が主な問題です。同じ形式のコンテンツを抽出してオンラインテキストエディタに表示する方法がいくつかある場合は、教えてください。PHPを使用してPDFからコンテンツを抽出する

おかげ

出典

2009-11-23 jose

私が見る限り、ではありません。フォーマットを保持しながら、PHPを編集可能なHTMLに変換することは可能です。その周りに多くのデスクトップアプリケーションがあります。でPDFからデータを抽出することがあります。現時点ではこれが現実的に可能ではないと言います。あなたができることは、XPDFや他のコマンドラインツールを使ってプレーンテキストを抽出することだけです。

新しいXMLベースのPDF形式では異なる場合がありますが、それについてはまだ分かりません。

私が間違っていることは間違いないと思います。解決策があれば、私は非常に興味があります。

出典

2009-12-01 15:25:21

は、私はあなたがエディタで表示するよう

$text = shell_exec("pdftotext $pdffile");

を行うことができたとXPDF

を見たことがありますか？エディタは？何らかの形式の情報を保持し、WebエディタがHTMLエディタを意味すると仮定してHTMLに変換できます。おそらく他にも利用できるツールがありますが、xpdfを使用しているので、xpdfに基づいてthisコンバータを見つけました。

基本的な使い方

pdftohtml -noframes -c test.pdf test.html

が好きなエディタあなたは、PHPの関数/クラス内で物事をラップする必要があるかもしれません

echo file_get_contents('test.html');

にそれを得るために。セキュリティ対策などを追加することもできます。

出典

2009-11-23 13:19:07

ウェブサイト用のオンラインカスタム開発エディタです。 – jose

PHPを使用してPDFからコンテンツを抽出する

答えて

関連する問題