私は、pdfを読み込んでそこから特定の情報を抽出できる(データベースに保存する)クローラを作成しようとしています。クローラがpdfを読む
ただし、使用するツール/ツールが不明です。
私の最初の考えはPhantomJsを使用することでしたが、多くを読んだら、それは能力を持っているようには見えません。私がPhantomjsを使いたければ、pdfをダウンロードしてHTMLページに変換し、その後Phantomを使ってクロールする必要があります。これは面倒な作業のように速くできるはずです。
私の質問は、どうすればオンラインソースからpdfを読み込み、これらの情報を集めることができますか?