私はpdfからデータを抽出しようとしています。これはhttps://www.dol.gov/ui/data.pdfにあります。私が興味を持っているデータは、PDFの4ページにあり、最初のクレーム(NSA)、3つの被保険者失業(NSA)、3週間の被雇用(脚注2) 。PDFの特定の位置からデータを抽出していますか?
私はpdftoolsを使用してPDFをRに読みましたが、生成されるテキスト出力はかなり醜いものです(PDFの性質上、予期されるものです)。このテキスト出力から特定のデータを抽出する方法はありますか?私はデータが常に出力の同じ場所にあると信じています。
私が探していた出力は、以下のスクリプトで見ることができます。
library(pdftools)
download.file("https://www.dol.gov/ui/data.pdf", "data.pdf", mode="wb")
uidata <- pdf_text("data.pdf")
uidata[4]
私は同様の質問を持つ人々を検索し、スキャンして周りいじっ()とgrep()することはできませんが、しましたテキスト出力から必要なデータを分離して抽出する方法を見つけ出すようです。誰かがこれに遭遇し、正しい方向に私を指すことができる場合は事前に感謝 - 私はこれを把握しようとしているでしょう! grep
と少し正規表現で