2017-09-30 9 views
0

私は、1000 pdfをデータ分析用のテキストに変換しようとしています。私はpdftoolsパッケージを使用しています。pdftoolsを使用してpdfのテキストをバッチに変換する

私は、次のコードを使用して2 PDFに変換することができました:

library(pdftools) 
file_list <- list.files('pdf', full.names = TRUE, pattern = 'pdf') 

for(i in 1:length(file_list)){ 
    temp <- pdf_text(file_list[i]) 
    temp <- tolower(temp) 

    file_name = paste(file_list[i], '.txt') 
    sink(file_name) 
    cat(temp) 
    sink() 

} 

が、私は追加したときに2つ以上が、私は次のエラーを取得:また

" Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure." 

を、私は希望を唯一の「file_name.txt」なるように、最終的なテキストファイルには、今の私は

おかげで、

答えて

0
0123「.txtのfile_name.pdf」を取得しています
+0

ありがとう@ hrbrmstr!しかし、私は1000のpdfのうち20だけを変換することができます。私は別のコードを使用しようとしましたが(下記参照)、そのコードではtxtです。私はすべてのファイルがスペイン語であるので、私は複数の特殊文字を持っているので、すべての文字を小文字にする必要があります。 – Claudia

+0

pdf_files < - list.files (パス=ペースト(getwd() '/ PDF'、9月= '')、= パターン 'PDF'、 full.names = TRUE) 場合(長さ(PDF_Filesの)> 0)(iに対する{ pdf_files){ システム ペースト( ペースト( '"'、getwd()、 '/xpdf/bin64/pdftotext.exe' '、sep =' ')、 paste0('" '、i、' " '))、 待機= FALSE) } } cat(' \ nテキストへの変換が完了しました。\ n \ n ') – Claudia

+0

Unfortunあなたが本当にあなたのためにコードを書くことは本当に不可能です。 'stringi'パッケージには' stri_trans_tolower() 'があり、異なる文字セットの翻訳に役立ちます。 – hrbrmstr

関連する問題