0
私は、1000 pdfをデータ分析用のテキストに変換しようとしています。私はpdftoolsパッケージを使用しています。pdftoolsを使用してpdfのテキストをバッチに変換する
私は、次のコードを使用して2 PDFに変換することができました:
library(pdftools)
file_list <- list.files('pdf', full.names = TRUE, pattern = 'pdf')
for(i in 1:length(file_list)){
temp <- pdf_text(file_list[i])
temp <- tolower(temp)
file_name = paste(file_list[i], '.txt')
sink(file_name)
cat(temp)
sink()
}
が、私は追加したときに2つ以上が、私は次のエラーを取得:また
" Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure."
を、私は希望を唯一の「file_name.txt」なるように、最終的なテキストファイルには、今の私は
おかげで、
ありがとう@ hrbrmstr!しかし、私は1000のpdfのうち20だけを変換することができます。私は別のコードを使用しようとしましたが(下記参照)、そのコードではtxtです。私はすべてのファイルがスペイン語であるので、私は複数の特殊文字を持っているので、すべての文字を小文字にする必要があります。 – Claudia
pdf_files < - list.files (パス=ペースト(getwd() '/ PDF'、9月= '')、= パターン 'PDF'、 full.names = TRUE) 場合(長さ(PDF_Filesの)> 0)(iに対する{ pdf_files){ システム ペースト( ペースト( '"'、getwd()、 '/xpdf/bin64/pdftotext.exe' '、sep =' ')、 paste0('" '、i、' " '))、 待機= FALSE) } } cat(' \ nテキストへの変換が完了しました。\ n \ n ') – Claudia
Unfortunあなたが本当にあなたのためにコードを書くことは本当に不可能です。 'stringi'パッケージには' stri_trans_tolower() 'があり、異なる文字セットの翻訳に役立ちます。 – hrbrmstr