spark scalaクラスのオブジェクトのリストへのデータの変換

私は、以下のクラスのオブジェクトのリストに下のデータを変換するためにスパーク変換コードを書き込もうとしています。私は全く新しいscalaとsparkを使い、それをケースクラスに入れましたが、私はそれらを戻すことができませんでした。これについてあなたの助けを要求してください。spark scalaクラスのオブジェクトのリストへのデータの変換

データ：

FirstName,LastName,Country,match,Goals 
Cristiano,Ronaldo,Portugal,Match1,1 
Cristiano,Ronaldo,Portugal,Match2,1 
Cristiano,Ronaldo,Portugal,Match3,0 
Cristiano,Ronaldo,Portugal,Match4,2 
Lionel,Messi,Argentina,Match1,1 
Lionel,Messi,Argentina,Match2,2 
Lionel,Messi,Argentina,Match3,1 
Lionel,Messi,Argentina,Match4,2

所望の出力：

PLayerStats{ String FirstName, 
    String LastName, 
    String Country, 
    Map <String,Int> matchandscore 
}

出典

2016-12-24 Bhushan

は、まず、キーと値のペアにラインを変換し、その後groupByKeyまたはreduceByKeyも、その後に動作キーと値のペアのデータを変換しようとすることができます適用さ(Cristiano, rest of data)を言います値を入力してgroupByKeyまたはreduceByKeyをクラスに適用した後有名な単語数のプログラムの助けを借りてください。

http://spark.apache.org/examples.html

出典

2016-12-24 03:48:18

次のように何かを試みることができる：

val file = sc.textFile("myfile.csv") 

val df = file.map(line => line.split(",")).  // split line by comma 
       filter(lineSplit => lineSplit(0) != "FirstName"). // filter out first row 
       map(lineSplit => {   // transform lines 
       (lineSplit(0), lineSplit(1), lineSplit(2), Map((lineSplit(3), lineSplit(4).toInt)))}). 
       toDF("FirstName", "LastName", "Country", "MatchAndScore")   

df.schema 
// res34: org.apache.spark.sql.types.StructType = StructType(StructField(FirstName,StringType,true), StructField(LastName,StringType,true), StructField(Country,StringType,true), StructField(MatchAndScore,MapType(StringType,IntegerType,false),true)) 

df.show 

+---------+--------+---------+----------------+ 
|FirstName|LastName| Country| MatchAndScore| 
+---------+--------+---------+----------------+ 
|Cristiano| Ronaldo| Portugal|Map(Match1 -> 1)| 
|Cristiano| Ronaldo| Portugal|Map(Match2 -> 1)| 
|Cristiano| Ronaldo| Portugal|Map(Match3 -> 0)| 
|Cristiano| Ronaldo| Portugal|Map(Match4 -> 2)| 
| Lionel| Messi|Argentina|Map(Match1 -> 1)| 
| Lionel| Messi|Argentina|Map(Match2 -> 2)| 
| Lionel| Messi|Argentina|Map(Match3 -> 1)| 
| Lionel| Messi|Argentina|Map(Match4 -> 2)| 
+---------+--------+---------+----------------+

出典

2016-12-24 04:10:33 Psidom

をすでにdataという名前RDD[String]にデータをロードと仮定：

case class PlayerStats(FirstName: String, LastName: String, Country: String, matchandscore: Map[String, Int]) 

val result: RDD[PlayerStats] = data 
    .filter(!_.startsWith("FirstName")) // remove header 
    .map(_.split(",")).map { // map into case classes 
    case Array(fn, ln, cntry, mn, g) => PlayerStats(fn, ln, cntry, Map(mn -> g.toInt)) 
    } 
    .keyBy(p => (p.FirstName, p.LastName)) // key by player 
    .reduceByKey((p1, p2) => p1.copy(matchandscore = p1.matchandscore ++ p2.matchandscore)) 
    .map(_._2) // remove key

出典

2016-12-24 09:24:01

ありがとうございました!!ティッシュは – Bhushan

を働いた@Bhushan喜んでそれは助け - あなたがこれを知っている将来の読者に役立つ/ upvoteを受け入れることができます有用だった –

spark scalaクラスのオブジェクトのリストへのデータの変換

答えて

関連する問題