テキスト解析を行うためにRのtmパッケージを使用しようとしています。私は以下を結びつけました:'utf8towcs'に無効な入力があります
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
いくつかの文字は無効です。私は、無効な文字をR内から、または処理のためにファイルをインポートする前に、分析から除外したいと考えています。私はすべてのファイルがUTF-8に変換してそれに変換できないものを除外するためのiconvを使用してみました
は次のとおりです。
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
ここで指摘したようにBatch convert latin-1 files to utf-8 using iconv
しかし、私はまだ取得同じエラー。
ご協力いただきありがとうございます。
返信いただきありがとうございます。何らかの理由で、私にとって失敗した同じコード行が今すぐ動作します。私はこれが別の幸運な偶然であるかどうかわからない:)私は何も変えなかった、ただそれを再実行し、今度は何の問題もなく動作する。 – maiaini
うれしいことを聞いてうれしい! – Ben