Ruby Parse PDFファイルにはテキストと画像があります

テキストとイメージの両方の内容を持つpdfファイルがあります。私はそれを解析する必要があります。ルビーの宝石は有益でしょうか？私は、pdf-readerルビーの宝石を試してみましたが、Ruby Parse PDFファイルにはテキストと画像があります

1つの代替ソリューションは、HTMLにPDFファイルを抽出して、HTMLコンテンツを解析することです:(画像を解析しませんでした。すべてのオープンソースPDF2HTMLコンバータはあります両方テキストを操作することができますし、画像？

「解析する」とはどういう意味ですか？データを抽出しますか？ページをレンダリングする？ –

データを抽出したい –

PDFリーダーが画像を抽出することができ、しかし、PDFのような素敵なヘルパーがない::リーダー::ページ番号のテキスト（）ので、それはかなりマニュアルです。

アウトextract_images.rd例@ [ 1]。

2012-04-16 08:36:27

答えて