pdftoolsを使用してpdfのテキストをバッチに変換する

私は、1000 pdfをデータ分析用のテキストに変換しようとしています。私はpdftoolsパッケージを使用しています。pdftoolsを使用してpdfのテキストをバッチに変換する

私は、次のコードを使用して2 PDFに変換することができました：

library(pdftools) 
file_list <- list.files('pdf', full.names = TRUE, pattern = 'pdf') 

for(i in 1:length(file_list)){ 
    temp <- pdf_text(file_list[i]) 
    temp <- tolower(temp) 

    file_name = paste(file_list[i], '.txt') 
    sink(file_name) 
    cat(temp) 
    sink() 

}

が、私は追加したときに2つ以上が、私は次のエラーを取得：また

" Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure."

を、私は希望を唯一の「file_name.txt」なるように、最終的なテキストファイルには、今の私は

おかげで、

出典

2017-09-30 Claudia

0123「.txtのfile_name.pdf」を取得しています

出典

2017-09-30 22:29:14 hrbrmstr

ありがとう@ hrbrmstr！しかし、私は1000のpdfのうち20だけを変換することができます。私は別のコードを使用しようとしましたが（下記参照）、そのコードではtxtです。私はすべてのファイルがスペイン語であるので、私は複数の特殊文字を持っているので、すべての文字を小文字にする必要があります。 – Claudia

pdf_files < - list.files （パス=ペースト（getwd（） '/ PDF'、9月= ''）、= パターン 'PDF'、 full.names = TRUE）場合（長さ（PDF_Filesの）> 0）（iに対する{ pdf_files）{ システムペースト（ペースト（ '"'、getwd（）、 '/xpdf/bin64/pdftotext.exe' '、sep =' '）、 paste0（'" '、i、' " '））、待機= FALSE） } } cat（' \ nテキストへの変換が完了しました。\ n \ n '） – Claudia

Unfortunあなたが本当にあなたのためにコードを書くことは本当に不可能です。 'stringi'パッケージには' stri_trans_tolower（） 'があり、異なる文字セットの翻訳に役立ちます。 – hrbrmstr

pdftoolsを使用してpdfのテキストをバッチに変換する

答えて

関連する問題