2012-04-15 16 views
1

テキストイメージの両方の内容を持つpdfファイルがあります。私はそれを解析する必要があります。ルビーの宝石は有益でしょうか?私は、pdf-readerルビーの宝石を試してみましたが、Ruby Parse PDFファイルにはテキストと画像があります

1つの代替ソリューションは、HTMLにPDFファイルを抽出して、HTMLコンテンツを解析することです:(画像を解析しませんでした。すべてのオープンソースPDF2HTMLコンバータはあります両方テキストを操作することができますし、画像?

+0

「解析する」とはどういう意味ですか?データを抽出しますか?ページをレンダリングする? –

+0

データを抽出したい –

答えて

関連する問題