2013-10-26 33 views
8

私たちは好奇心のため、PDFメタデータ(以下に示す情報など)をRから読み込む方法はありますか?PDFのメタデータを読む方法

現在の質問ベースで[r] pdf metadataから検索すると、それについて何もできませんでした。すべてのポインタは非常に歓迎!

enter image description here

+4

'readPDF'形式のtmパッケージを見てください。 –

+0

ありがとうございます - 賢明に見えますが使用するのは明らかではありません。コンテンツ製作者などを抽出するコードを書くと、私は報告します。 –

+1

'file.info()'はあなたにその情報の一部を手に入れます – GSee

答えて

4
私はこれを行うには、純粋なRの方法を考えることはできませんが、あなたはおそらくたとえば、 the PDF toolkit, PDFtk用(お好みのPDFコマンドラインツールをインストールするとの少なくとも一部を取得するためにそれを使用することができます

あなたが探しているデータ。

次はPDFtkを使用して、基本的な例である。それはpdftkがあなたのパスにアクセス可能であることを前提としています。

x <- getwd() ## I'll run this example in a tempdir to keep things clean 
setwd(tempdir()) 
list.files(pattern="*.txt$|*.pdf$") 
# character(0) 

pdf(file = "SomeOutputFile.pdf") 
plot(rnorm(100)) 
dev.off() 

system("pdftk SomeOutputFile.pdf data_dump output SomeOutputFile.txt") 
list.files(pattern="*.txt$|*.pdf$") 
# [1] "SomeOutputFile.pdf" "SomeOutputFile.txt" 

readLines("SomeOutputFile.txt") 
# [1] "InfoBegin"     "InfoKey: Creator"    
# [3] "InfoValue: R"     "InfoBegin"     
# [5] "InfoKey: Title"    "InfoValue: R Graphics Output" 
# [7] "InfoBegin"     "InfoKey: Producer"   
# [9] "InfoValue: R 3.0.1"   "InfoBegin"     
# [11] "InfoKey: ModDate"    "InfoValue: D:20131102170720" 
# [13] "InfoBegin"     "InfoKey: CreationDate"  
# [15] "InfoValue: D:20131102170720" "NumberOfPages: 1"    
# [17] "PageMediaBegin"    "PageMediaNumber: 1"   
# [19] "PageMediaRotation: 0"   "PageMediaRect: 0 0 504 504" 
# [21] "PageMediaDimensions: 504 504" 

setwd(x) 

私はワットを指定することがある他のどのようなオプションに見てねハットメタデータが抽出され、この情報をより便利な形式に解析する便利な方法があるかどうかを確認します。