2012-02-21 12 views
2

この問題はhereと似ています。「不完全な最終行」に関するその他の問題

私は大量の大きなCSVを持っていますが、これは関数を介してシリアルに読み込んで解析しています。これらのCSVの多くは問題ありませんが、read.csv()でロードしようとすると問題を引き起こすものがいくつかあります。

これらのファイルの1つを公開Dropboxフォルダhereにアップロードしました(ファイルは約10.4MBです)。

私は(read.csvしてみてください)、そのファイル、私は警告、警告メッセージが出ます:

In read.table(file = file, header = header, sep = sep, quote = quote, : 
    incomplete final line found by readTableHeader on ... 

をそして、私は解決策のためにStackOverflowとRhelpを精練にもかかわらず、問題を特定することはできません。 Maddeningly、私の代わりに私のローカルパスのDropboxのURLを使用して

Import <- read.csv("http://dl.dropbox.com/u/83576/Candidate%20Mentions.csv") 

、それはロードが、実行したときに、私は、その非常にデータフレームを保存するので、それをリロードしようとすると:

write.csv(Import, "Test_File.csv", row.names = F) 
TestImport <- read.csv("Test_File.csv") 

私が手「不完全な最終行」の警告が再度表示されます。

なぜ、Dropboxがロードされたバージョンが動作するのか、ローカルバージョンは動作しないのか、ローカルバージョンの動作をどうすればいいのだろうか。 )、何らかの方法で自動化できないソリューションを使用することはできません。

関連する問題では、おそらく独自の質問に値すると、一部の特殊文字がread.csv()プロセスを壊し、ファイル全体の読み込みを妨げているようです。たとえば、14,760行を持つ1つのCSVは、3,264行しかロードしません。

「RTする@ akiron3:第三千二百六十四行はこの雄弁ツイートを含んácÎå23BkªÐÞ'q(@BarackObama)nĤÿükTPPÂÍþnĤüÈ'áY<ªÐÞĤÿüŽ \ &「をŸõWFSnĤ© 「FhÎåšBkêÕ 『kĤüÈLáUŒ〜YÒhttp://t.co/ABNnWfTN 』(数百のファイルのシリアル化されたロード与えWF」

再び

はどのように私は(Aすることができます)JG)何であるかを識別read.csv()プロセスでこのブレークを引き起こし、(b)手ではなくコードで問題を解決してください。

ご協力いただきありがとうございます。

+0

twitterをスクラップするために使用しているAPIは何でも、多くの場合言語パラメータがあります。たぶん英語でつぶやきだけを指定したり、そのファイルからすべての狂気を取り除くために(Rなどで)コードを書いてください。私は 'readLines'で始まり、そこから諺の町に行くでしょう。 – Justin

答えて

3

1)

suppressWarnings(TestImport <- read.csv("Test_File.csv")) 

2)比類のない引用符が見かけ上、早期閉鎖の最も一般的な原因です。

quote="", na,strings="", comment.char="" 
関連する問題