PDFファイルからデータを抽出するのはかなり簡単です。正しく動作するライブラリが複数あります。一方、データを抽出し、そのレイアウトを保存すること(OPが記述するワークフロー)は非常に困難なプロセスです。その背後にある理由は単純です - ほとんどの* PDFファイルは、実際に構造を定義する要素を持っていません。たとえば、PDFファイルに表が表示されている場合、人間はそれを見るのが非常に簡単で、これは実際にはデータが入っている表であると理解しています。しかし、PDFファイル自体では、これはベクトル線の集まりであり、いくつかのテキストが中間で実行されます。 PDF自体またはPDFビューアは、これが表であることを認識していません。したがって、このデータをHTMLに変換すると、テーブルを描画する必要があることはわかりませんが、代わりにこれをベクトルアートと見なします。これはなぜこれが難しいのかの一例にすぎません。この点を説明するために使用できる他の多くのものがあります。
一方、このようなものは"Tagged PDF"(セクション10.7)として存在します。構造要素が実際に定義されているPDFであり、抽出はかなり簡単です。しかし、タグ付けされたPDFファイルは私たちが望むほど一般的ではなく、ほとんどの場合、あなたが1つのファイルで動作することは保証されません。
タグなしドキュメントの構造を推論するために洗練されたロジックを使用するツールが市場にあります。彼らの中には、これよりも優れているものもあります。私は、HTMLファイルを作成する上でまともな仕事をするAdobe Acrobatで作業しました。また、PDFをHTMLに変換するPDF AlchemistというDatalogics(私はDatalogicsのために働く)からの提供もあります。どちらも商用ソリューションです。
無料のソリューションをお探しの場合、PDFBoxはPDFドキュメントからコンテンツを抽出するのに適しています。ただし、HTMLファイルを作成する機能はありません。これはライブラリの外部で実装する必要があります。私は十分な仕事をする無料のPDFソリューションをHTMLで知っているわけではないので、私はお勧めしたいと思います。
ありがとうございました@Vel Genov私はHTMLにPDFファイルを抽出する際の難しさを理解しました。どうもありがとう.. –