readLines
、次にstrsplit
をそれぞれ\\t+
としてください。
いくつかの俳優が2列に複数のエントリを持っていることを
X1 X2
1 Aa, Brynjar Adj¯ solidaritet (1985) [P¯nker] <40>
2 Aa, Henk Cuby + Blizzards: 40 jaar de blues (2006) (V) [Himself]
3 Aa, Henk van der "De slimste mens ter wereld" (2012) {(#5.10)} [Himself] <4>
4 "De slimste mens ter wereld" (2012) {(#5.11)} [Himself] <3>
5 "De slimste mens ter wereld" (2012) {(#5.8)} [Himself] <3>
6 "De slimste mens ter wereld" (2012) {(#5.9)} [Himself] <4>
7 Aab, Vanessa (I) Frollein FrappÈ (2014) [Greta]
8 Nach einem Traum (2014) [Elke]
9 Aabear, Jim Paradise Recovered (2010) [Richard] <8>
10 Senses (2009) [Mr. Cohen]
11 Aabed, Essam Abu Omar (2013) [Omar's Boss] <10>
12 Aabedlaoui, El Hassan La vache (2016) [Aissaoui 2] <80>
13 Aabeel Czeski Friends (2004) (V)
14 Aabel, Anders Kontakt! (1956) <7>
お知らせになり
file <- readLines("PATHTO/actorstest.txt", encoding = 'Latin-1')
# delete empty rows
file <- subset(file, !grepl('^\\s*$', file))
# split in two columns by one or more tabs
file <- strsplit(x = file, split = '\\t+')
# row bind all itms and create df
df <- data.frame(do.call(rbind, lapply(file, unlist)))
df
。私はそれをキャプチャしておきます。
これは、https://github.com/hadley/data-moviesに役立つかもしれません –
ありがとうございます - これは私が始めていたときに数週間前に試したことですが、残念ながら作成者がプロジェクトを中止したようですそれが完全に完了する前に。最終結果はすべてのムービーを含むデータフレームですが、変数の一部(ジャンル、評価、票、アクターなどはありません) – tsouchlarakis
しかし、このコードはソリューションを救うためのガイドです。私の答えを見てください。 –