2017-05-07 15 views
0

IMDbが公開するFTP hereのデータを読む必要があります。問題は、データが常に一貫したフォーマットであるとは限らないことです。私はデータの小さなスニペット(最初の数行)の下に添付しています。IMDbデータをRに読み込む

私はread.table()sep = '\t'を使用しようとしましたが、100%の精度でラインを分割しません。

Hereサンプルデータが見つかります。

この表をRに読み込むにはどうすればよいですか?

+0

これは、https://github.com/hadley/data-moviesに役立つかもしれません –

+0

ありがとうございます - これは私が始めていたときに数週間前に試したことですが、残念ながら作成者がプロジェクトを中止したようですそれが完全に完了する前に。最終結果はすべてのムービーを含むデータフレームですが、変数の一部(ジャンル、評価、票、アクターなどはありません) – tsouchlarakis

+0

しかし、このコードはソリューションを救うためのガイドです。私の答えを見てください。 –

答えて

1

readLines、次にstrsplitをそれぞれ\\t+としてください。

いくつかの俳優が2列に複数のエントリを持っていることを

     X1               X2 
1   Aa, Brynjar      Adj¯ solidaritet (1985) [P¯nker] <40> 
2    Aa, Henk  Cuby + Blizzards: 40 jaar de blues (2006) (V) [Himself] 
3  Aa, Henk van der "De slimste mens ter wereld" (2012) {(#5.10)} [Himself] <4> 
4      "De slimste mens ter wereld" (2012) {(#5.11)} [Himself] <3> 
5       "De slimste mens ter wereld" (2012) {(#5.8)} [Himself] <3> 
6       "De slimste mens ter wereld" (2012) {(#5.9)} [Himself] <4> 
7  Aab, Vanessa (I)        Frollein FrappÈ (2014) [Greta] 
8              Nach einem Traum (2014) [Elke] 
9   Aabear, Jim      Paradise Recovered (2010) [Richard] <8> 
10               Senses (2009) [Mr. Cohen] 
11  Aabed, Essam Abu        Omar (2013) [Omar's Boss] <10> 
12 Aabedlaoui, El Hassan       La vache (2016) [Aissaoui 2] <80> 
13    Aabeel          Czeski Friends (2004) (V) 
14   Aabel, Anders           Kontakt! (1956) <7> 

お知らせになり

file <- readLines("PATHTO/actorstest.txt", encoding = 'Latin-1') 

# delete empty rows 
file <- subset(file, !grepl('^\\s*$', file)) 

# split in two columns by one or more tabs 
file <- strsplit(x = file, split = '\\t+') 

# row bind all itms and create df 
df <- data.frame(do.call(rbind, lapply(file, unlist))) 
df 

。私はそれをキャプチャしておきます。

+0

ありがとうございました!まさに私が探していたもの。 – tsouchlarakis

関連する問題