と斜体<私>など、私は-raw
オプションでうまく動作PDFファイルからテキストを抽出するためのXpdfを使用していますが、今、私たちは大胆<B>のようなHTMLの整形タグを抽出するためのファイルをHTMLにPDFファイルを変換したいですテキスト。 オプションのXpdfが動作しますが、私はpdf2htmlを使ってこれを試してみましたが、<sup>と<sub>のようなタグとしては信頼できません。PerlでAcrobat Readerを使用して複数のPDFファイルをHTMLファイルとして保存する方法はありますか?
私たちは現在、Acrobat Readerを使用してPDFファイルをHTMLファイルとして保存しています。これにより、すべてのHTMLフォーマットタグが提供されます。
複数のPDFファイルをHTMLファイルとして保存するために、Acrobat ReaderをPerlで使用する方法はありますか?
ありがとうございます。
本当にこれをPerlから行う必要がありますか、あるいは外部アプリケーションの動作を制御できるものはありますか? –
Perlにする必要はありませんが、他のアプリケーションでも可能です。唯一のことは、複数のファイルを変換できることです。 –