2017-09-05 7 views
0

私は、pdfを読み込んでそこから特定の情報を抽出できる(データベースに保存する)クローラを作成しようとしています。クローラがpdfを読む

ただし、使用するツール/ツールが不明です。

私の最初の考えはPhantomJsを使用することでしたが、多くを読んだら、それは能力を持っているようには見えません。私がPhantomjsを使いたければ、pdfをダウンロードしてHTMLページに変換し、その後Phantomを使ってクロールする必要があります。これは面倒な作業のように速くできるはずです。

私の質問は、どうすればオンラインソースからpdfを読み込み、これらの情報を集めることができますか?

答えて

1

プログラミング言語の制限がない場合は、iTextの使用を検討してください。 これは、特定のPDFドキュメントからすべてのテキストを簡単に抽出することができます。また、ファイル内の正規表現を検索し、正確な位置(座標)と一致するテキストを返すユーティリティメソッドを提供します。

iTextは、C#とJava愛好家の両方で利用できます。

File inputFile = new File(""); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String content = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1)); 

詳しくは、ウェブサイトをご覧ください。 http://developers.itextpdf.com/content/itext-7-examples/itext-7-content-extraction-and-redaction