2016-05-20 7 views
1

pdfからテキストを取り除き、それを完成させることが可能です。そして、私はここで私は他のPDFファイルとのPDFのレイアウトを比較する必要があります。プログラムで可能ですか?サードパーティ製のツールがありますが、セレンやプログラミング言語を使用してテストすることは可能ですか?プログラムでPDFファイルのレイアウトを比較するにはどうすればよいですか?

私はgoogleを使いましたが、これはまだ解決策が見つかりませんでしたか?どんな助けもありがたい。

+0

「レイアウトを比較する」とはどういう意味ですか? – mkl

+0

@mkl pdfファイルのtext/image/linesの位置/字下げ/配置を確認する必要があります。理にかなっている? –

+0

PDFからその位置と向きのすべてのテキスト断片を抽出する関数があれば十分でしょうか?その関数を比較する両方のPDFにその関数を適用してから、これらの(テキストの断片、位置、方向)タプルを実際に比較することができます。 – mkl

答えて

0

ApacheのPDF Boxを使用すると、既存のPDFドキュメントからテキストを抽出できるはずです。

ps:おそらくjaveでカスタムプログラムを作成して、それを抽出して比較し、seliniumから呼び出す必要があります。

+0

私はここでの意図ではないテキストを抽出することができます。私はpdfファイルのレイアウトを比較する必要があります、それは可能ですか? –

+0

PDF Boxではレイアウトの比較ができません。しかし、この拡張機能[PDF Box Layout](https://github.com/ralfstuckert/pdfbox-layout/wiki)が役に立つかもしれません。 – uniknow

+0

これは興味深いかもしれません:https://www.snowtide.com/help/3.3.1。また、抽出されたレイアウトを保証する方法もあります(https://www.snowtide.com/help/3.3.1/controlling-formatting-extracted-textを参照) – uniknow

関連する問題