PerlでAcrobat Readerを使用して複数のPDFファイルをHTMLファイルとして保存する方法はありますか？

と斜体<私>など、私は-rawオプションでうまく動作PDFファイルからテキストを抽出するためのXpdfを使用していますが、今、私たちは大胆<B>のようなHTMLの整形タグを抽出するためのファイルをHTMLにPDFファイルを変換したいですテキスト。オプションのXpdfが動作しますが、私はpdf2htmlを使ってこれを試してみましたが、<sup>と<sub>のようなタグとしては信頼できません。PerlでAcrobat Readerを使用して複数のPDFファイルをHTMLファイルとして保存する方法はありますか？

私たちは現在、Acrobat Readerを使用してPDFファイルをHTMLファイルとして保存しています。これにより、すべてのHTMLフォーマットタグが提供されます。

複数のPDFファイルをHTMLファイルとして保存するために、Acrobat ReaderをPerlで使用する方法はありますか？

ありがとうございます。

出典

2009-07-27 Pawan Rao

本当にこれをPerlから行う必要がありますか、あるいは外部アプリケーションの動作を制御できるものはありますか？ –

Perlにする必要はありませんが、他のアプリケーションでも可能です。唯一のことは、複数のファイルを変換できることです。 –

PDFスタイリング情報は完全に任意であり、意味のある方法でHTMLに確実にマップすることはできません。いくつかの戦略は、-xmlオプションをpdftohtmlに使用してから、LibXMLを使用して、出力にヒューリスティックスを適用し、元のドキュメントの妥当なHTML近似を作成することです。

出典

2009-07-27 06:24:55 friedo

PerlでAcrobat Readerを使用して複数のPDFファイルをHTMLファイルとして保存する方法はありますか？

答えて

関連する問題