phpのpdfからテキストを抽出するすべてのPDFファイルで機能しない

私はPDFファイルからテキストを抽出しています。これはコードです：phpのpdfからテキストを抽出するすべてのPDFファイルで機能しない

<?php 

require("PdfToText.php"); 

$file = 'SamplePF' ; 
$pdf = new PdfToText ("$file.pdf") ; 
echo ($pdf -> Text) ; 

?>

このクラスは一部のPDFファイルで正常に動作します。このクラスに問題がある：それは賢明ではないページ順にランダムページ/行のテキストを取り、いくつかのPDFファイルのための

。
一部のPDFファイルでは結果が表示されません。
一部のPDFファイルでは、1行または2行しか抽出されません。

解決策をご提案ください。ありがとうございました！

出典

2016-11-19 Harinarayan

一部のPDFファイルは古いファイルで、同じ構造を使用していません。問題が発生した場合は、アドビに、なぜ公開APIを公開していないのかを連絡してください。 – Xorifelse

これは正確な問題であるとは確信していません。そのためには抽出できませんが、pdfからデータを抽出する際に同様の問題が発生しました。 PDFファイルは、文書に一定の制限を加え、著作権の問題を保護するために、変更、コンテンツのコピーや抽出などを許可しない所有者のパスワードによってロックされることがあります。 Check this link for more info on owner passwords。

最初にオーナーのパスワードを削除してから、そのようなpdfの解凍を試みることができます。所有者のパスワードを削除するには、オンラインで利用可能なツールがいくつかあります。どれが最適かを選択できます。

出典

2016-12-02 06:20:19

phpのpdfからテキストを抽出するすべてのPDFファイルで機能しない

答えて

関連する問題