this websiteのファイルのテキストマイニングをtmパッケージを使用して行いたいとします。私は自分の作業ディレクトリにファイル(すなわち、abell.pdf)のいずれかをダウンロードし、内容を保存しようとするには、次のコードを使用しています:RTEパッケージstrptime(d、fmt)のreadPDFエラー:入力文字列が長すぎます
library("tm")
url <- "https://baltimore2006to2010acsprofiles.files.wordpress.com/2014/07/abell.pdf"
filename <- "abell.pdf"
download.file(url = url, destfile = filename, method = "curl")
doc <- readPDF(control = list(text = "-layout"))(elem = list(uri = filename),
language = "en", id = "id1")
しかし、私は次のようなエラーや警告を受ける:
Error in strptime(d, fmt) : input string is too long
In addition: Warning messages:
1: In grepl(re, lines) : input string 1 is invalid in this locale
2: In grepl(re, lines) : input string 2 is invalid in this locale
pdfsはあまり長くはありません(5ページ、978 KB)、私のMac OSX上の他のpdfファイルを読むためにreadPDF関数をうまく使用することができました。私が一番欲しい情報(2010年国勢調査の総人口)は各pdfの最初のページにあるので、pdfを最初のページに短縮しようとしましたが、同じメッセージが表示されます。
私はtmパッケージを初めて使用しているので、明らかに何かが不足している場合はお詫びします。どんな助けでも大歓迎です!