1
テキストとイメージの両方の内容を持つpdfファイルがあります。私はそれを解析する必要があります。ルビーの宝石は有益でしょうか?私は、pdf-readerルビーの宝石を試してみましたが、Ruby Parse PDFファイルにはテキストと画像があります
1つの代替ソリューションは、HTMLにPDFファイルを抽出して、HTMLコンテンツを解析することです:(画像を解析しませんでした。すべてのオープンソースPDF2HTMLコンバータはあります両方テキストを操作することができますし、画像?
「解析する」とはどういう意味ですか?データを抽出しますか?ページをレンダリングする? –
データを抽出したい –