この問題はhereと似ています。「不完全な最終行」に関するその他の問題
私は大量の大きなCSVを持っていますが、これは関数を介してシリアルに読み込んで解析しています。これらのCSVの多くは問題ありませんが、read.csv()
でロードしようとすると問題を引き起こすものがいくつかあります。
これらのファイルの1つを公開Dropboxフォルダhereにアップロードしました(ファイルは約10.4MBです)。
私は(read.csvしてみてください)、そのファイル、私は警告、警告メッセージが出ます:
In read.table(file = file, header = header, sep = sep, quote = quote, :
incomplete final line found by readTableHeader on ...
をそして、私は解決策のためにStackOverflowとRhelpを精練にもかかわらず、問題を特定することはできません。 Maddeningly、私の代わりに私のローカルパスのDropboxのURLを使用して
Import <- read.csv("http://dl.dropbox.com/u/83576/Candidate%20Mentions.csv")
、それはロードが、実行したときに、私は、その非常にデータフレームを保存するので、それをリロードしようとすると:
write.csv(Import, "Test_File.csv", row.names = F)
TestImport <- read.csv("Test_File.csv")
私が手「不完全な最終行」の警告が再度表示されます。
なぜ、Dropboxがロードされたバージョンが動作するのか、ローカルバージョンは動作しないのか、ローカルバージョンの動作をどうすればいいのだろうか。 )、何らかの方法で自動化できないソリューションを使用することはできません。
関連する問題では、おそらく独自の質問に値すると、一部の特殊文字がread.csv()
プロセスを壊し、ファイル全体の読み込みを妨げているようです。たとえば、14,760行を持つ1つのCSVは、3,264行しかロードしません。
「RTする@ akiron3:第三千二百六十四行はこの雄弁ツイートを含んácÎå23BkªÐÞ'q(@BarackObama)nĤÿükTPPÂÍþnĤüÈ'áY<ªÐÞĤÿüŽ \ &「をŸõWFSnĤ© 「FhÎåšBkêÕ 『kĤüÈLáUŒ〜YÒhttp://t.co/ABNnWfTN 』(数百のファイルのシリアル化されたロード与えWF」
再び
、はどのように私は(Aすることができます)JG)何であるかを識別read.csv()
プロセスでこのブレークを引き起こし、(b)手ではなくコードで問題を解決してください。
ご協力いただきありがとうございます。
twitterをスクラップするために使用しているAPIは何でも、多くの場合言語パラメータがあります。たぶん英語でつぶやきだけを指定したり、そのファイルからすべての狂気を取り除くために(Rなどで)コードを書いてください。私は 'readLines'で始まり、そこから諺の町に行くでしょう。 – Justin