Perlを使用してPDFから画像/テキストを抽出する

Perlを使用してPDFファイルからテキスト/画像/表を抽出しようとしています。Perlを使用してPDFから画像/テキストを抽出する

CAM::PDFを試してみましたが、これはテキストではなく他の形式で抽出しています。

Perlモジュールを使用してPDFからテキスト/画像/表を抽出する方法はありますか？

2016-04-27 Priya Samy

を例にPDFがありますあなたがリンクできるオンラインのファイルですか？ – Borodin

Popplerの 'pdftohtml'です。あなたの正気を失う必要はありません。 –

CAM::PDFを使用してください。それはあなたが画像やその他の要素を抽出するのに役立ちますいくつかのメソッドがあります。priya..i @

$doc->getProperty($pagenum, $propertyname) 
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).

出典

2016-04-29 14:16:35

私はCAM :: PDF -J Atwalを使いました。しかし、私はstdoutで適切な出力を得ていません。！出力のようなものです：！ ↓◄↑◄§◄Uは↨←▬¶◄¶§◄§ 0 X♥6 \ VWHP♥、3 を§§∟◄▬→ 0 X♥6 \条VWHP♥6 HULDO♥♠ ！►を§！§¶↑¶！►！！！！►！▬ ' 0 X♥6 \ VWHP♥8 VHU DGPLQ ' HQLDO►RI►6 HUYLFH♥♂ " R 6♀♥5 HVXO 5¶ §！♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV \ $ YDLODELOLW H F R Y H U H G♥Z L W K L Qは♥¶♥P L Qは、X W H ♥ （[H F X W L Y H♥6 X P P D U \♥5 H S R U W↔♥ $ 5 3 B▬▬¶↑B 'R 6 –

を使用すると、標準出力に画像を印刷しようとしていない期待します;）。イメージの内容をファイルに保存してから、イメージエクスプローラでファイルを開きます。 –

これはイメージではなくテキストです。それでもこのように印刷しています。 –

は、PDFのテキスト抽出のために正常に動作して、このモジュールを試してみました。..

use strict; 
use warnings; 
use PDF::OCR::Thorough; 


my $filename = "pdf.pdf"; 

my $pdf = PDF::OCR::Thorough->new($filename); 
my $text = $pdf->get_text(); 
print "$text";

出典

2016-05-24 18:22:41

Perlを使用してPDFから画像/テキストを抽出する

答えて

関連する問題