2009-07-27 13 views
0

と斜体<私>など、私は-rawオプションでうまく動作PDFファイルからテキストを抽出するためのXpdfを使用していますが、今、私たちは大胆<B>のようなHTMLの整形タグを抽出するためのファイルをHTMLにPDFファイルを変換したいですテキスト。 オプションのXpdfが動作しますが、私はpdf2htmlを使ってこれを試してみましたが、<sup>と<sub>のようなタグとしては信頼できません。PerlでAcrobat Readerを使用して複数のPDFファイルをHTMLファイルとして保存する方法はありますか?

私たちは現在、Acrobat Readerを使用してPDFファイルをHTMLファイルとして保存しています。これにより、すべてのHTMLフォーマットタグが提供されます。

複数のPDFファイルをHTMLファイルとして保存するために、Acrobat ReaderをPerlで使用する方法はありますか?

ありがとうございます。

+0

本当にこれをPerlから行う必要がありますか、あるいは外部アプリケーションの動作を制御できるものはありますか? –

+0

Perlにする必要はありませんが、他のアプリケーションでも可能です。唯一のことは、複数のファイルを変換できることです。 –

答えて

2

PDFスタイリング情報は完全に任意であり、意味のある方法でHTMLに確実にマップすることはできません。いくつかの戦略は、-xmlオプションをpdftohtmlに使用してから、LibXMLを使用して、出力にヒューリスティックスを適用し、元のドキュメントの妥当なHTML近似を作成することです。

関連する問題