私の会社は、各クライアントのポリシー/サービスの要約をpdf形式のファイルで文書化しています。これらのファイルは、毎年大きなデータセットに結合されます。クライアントごとに1つの行と列は、クライアントのドキュメント内の変数です。数千のファイルがあり、それぞれに約20-30個の変数があります。クライアントを表す各行でdata.frameを作成し、各クライアントの変数をpdfドキュメントから取得することで、このプロセスを自動化したいと考えています。ディレクトリ内のpdfファイル名ですべてのクライアントのリストまたはdata.frameを作成できますが、各ドキュメントに必要な各変数を取得するループを作成する方法はわかりません。私は現在、私が決めることができない2つの異なる方法を持っています。また、それぞれのクライアント文書に必要な変数を取得するループの助けも必要です。私のコードと2つのモックファイルへのリンクを以下に示します。どんな助けもありがとう!各文書から変数を抽出し、適切な列に配置するループ
方法1:pdftools
第一の方法の利点は、それが別の要素にベクターに全体PDF、各ページを抽出します。これにより、文字列や変数を簡単に取得できます。しかし、それをループして各クライアントから情報を引き出し、それを各クライアントの列に適切に配置する方法を知らないでください。
library(pdftools)
library(stringr)
Files <- list.files(path="...", pattern=".pdf")
Files <- Files %% mutate(FR =
str_match(text, "\\$\\d+\\s\\Financial Reporting")) #Extract the first variable
方法2:
このアプローチの利点は、自動的に可変の行としてファイル名でクライアントドキュメントのそれぞれについてデータベース、及びザ各PDFを作成しています。欠点は、変数内のpdf全体が、各ページをそれ自身の要素に持つことと比べて、文字列の一致と抽出をより困難にしていることです。私は各クライアントの変数を抽出し、それぞれの列に配置するループを書く方法を知らない。
DF <- readtext("directory pathway/*.pdf")
DF <- DF %>% mutate(FR =
str_match(text, "\\$\\d+\\s\\Financial Reporting"))
これは素晴らしい作品です - ありがとう!ループに変数を追加するには、変数を抽出する行を追加し、それをdata.frameに追加するための2行目を追加するだけですか、data.frameのサイズを調整する必要がありますか(たとえば、列)何とか? この分野(私が初めてです)は、Excelを広範囲に分析に使用しているので、このデータベースが興味深い場合、このデータベースをExcelファイルに抽出することが最終目標です。 –
空のdata.frameの列、関心のある変数を抽出する行、もう1つをdata.frameに追加する3つの要素すべてを変更する必要があります。次の変数の名前がrisk_modelingの場合は、client_df
あなたは非常に役に立ちました。説明する時間をとってくれてありがとう。 –