2016-11-19 13 views
0

私はPDFファイルからテキストを抽出しています。これはコードです:phpのpdfからテキストを抽出するすべてのPDFファイルで機能しない

<?php 

require("PdfToText.php"); 

$file = 'SamplePF' ; 
$pdf = new PdfToText ("$file.pdf") ; 
echo ($pdf -> Text) ; 

?> 

このクラスは一部のPDFファイルで正常に動作します。 このクラスに問題がある:それは賢明ではない ページ順にランダムページ/行のテキストを取り、いくつかのPDFファイルのための

  1. 一部のPDFファイルでは結果が表示されません。
  2. 一部のPDFファイルでは、1行または2行しか抽出されません。

解決策をご提案ください。ありがとうございました!

+0

一部のPDFファイルは古いファイルで、同じ構造を使用していません。問題が発生した場合は、アドビに、なぜ公開APIを公開していないのかを連絡してください。 – Xorifelse

答えて

0

これは正確な問題であるとは確信していません。そのためには抽出できませんが、pdfからデータを抽出する際に同様の問題が発生しました。 PDFファイルは、文書に一定の制限を加え、著作権の問題を保護するために、変更、コンテンツのコピーや抽出などを許可しない所有者のパスワードによってロックされることがあります。 Check this link for more info on owner passwords

最初にオーナーのパスワードを削除してから、そのようなpdfの解凍を試みることができます。所有者のパスワードを削除するには、オンラインで利用可能なツールがいくつかあります。どれが最適かを選択できます。

関連する問題