RTEパッケージstrptime（d、fmt）のreadPDFエラー：入力文字列が長すぎます

this websiteのファイルのテキストマイニングをtmパッケージを使用して行いたいとします。私は自分の作業ディレクトリにファイル（すなわち、abell.pdf）のいずれかをダウンロードし、内容を保存しようとするには、次のコードを使用しています：RTEパッケージstrptime（d、fmt）のreadPDFエラー：入力文字列が長すぎます

library("tm") 
url <- "https://baltimore2006to2010acsprofiles.files.wordpress.com/2014/07/abell.pdf" 
filename <- "abell.pdf" 
download.file(url = url, destfile = filename, method = "curl") 

doc <- readPDF(control = list(text = "-layout"))(elem = list(uri = filename), 
               language = "en", id = "id1")

しかし、私は次のようなエラーや警告を受ける：

Error in strptime(d, fmt) : input string is too long 
In addition: Warning messages: 
1: In grepl(re, lines) : input string 1 is invalid in this locale 
2: In grepl(re, lines) : input string 2 is invalid in this locale

pdfsはあまり長くはありません（5ページ、978 KB）、私のMac OSX上の他のpdfファイルを読むためにreadPDF関数をうまく使用することができました。私が一番欲しい情報（2010年国勢調査の総人口）は各pdfの最初のページにあるので、pdfを最初のページに短縮しようとしましたが、同じメッセージが表示されます。

私はtmパッケージを初めて使用しているので、明らかに何かが不足している場合はお詫びします。どんな助けでも大歓迎です！

出典

2016-04-22 Maxwell

このエラーを読んだところ、「readPDF」関数はインポートするファイルのメタデータを作成する方法と関係があります。とにかく、 "info"オプションを使ってメタデータ情報を変更できます。例えば、私は通常、（あなたのコードを使用して）、次のようにコマンドを変更することで、このエラーを回避：

「情報=」のほか

doc <- readPDF(control = list(info="-f",text = "-layout"))(elem = list(uri = filename),language = "en", id = "id1")

- f「は」変更のみです。これは実際には問題を "修正"しませんが、エラーをバイパスします。乾杯。

出典

2016-11-15 21:25:20 Danny

RTEパッケージstrptime（d、fmt）のreadPDFエラー：入力文字列が長すぎます

答えて

関連する問題