スパークで分割するには？

私は1つのRDD内のデータを持っているし、次のようにデータがある：スパークで分割するには？

scala> c_data 
res31: org.apache.spark.rdd.RDD[String] = /home/t_csv MapPartitionsRDD[26] at textFile at <console>:25 

scala> c_data.count() 
res29: Long = 45212                

scala> c_data.take(2).foreach(println) 
age;job;marital;education;default;balance;housing;loan;contact;day;month;duration;campaign;pdays;previous;poutcome;y 
58;management;married;tertiary;no;2143;yes;no;unknown;5;may;261;1;-1;0;unknown;no

私は別のRDDにデータを分割したいと私は使用しています：

scala> val csv_data = c_data.map{x=> 
| val w = x.split(";") 
| val age = w(0) 
| val job = w(1) 
| val marital_stat = w(2) 
| val education = w(3) 
| val default = w(4) 
| val balance = w(5) 
| val housing = w(6) 
| val loan = w(7) 
| val contact = w(8) 
| val day = w(9) 
| val month = w(10) 
| val duration = w(11) 
| val campaign = w(12) 
| val pdays = w(13) 
| val previous = w(14) 
| val poutcome = w(15) 
| val Y = w(16) 
| }

返します

csv_data: org.apache.spark.rdd.RDD[Unit] = MapPartitionsRDD[28] at map at <console>:27

を

私がcsv_dataをクエリすると、Array（（）、....）が返されます。最初の行をヘッダーにしてデータとして取得するにはどうすればよいですか？私は間違っていますか？

ありがとうございました。

出典

2017-04-08 Arvind

マップ関数は何も返しません。 –

はい、私はそれを得ました。ありがとう。 – Arvind

あなたのマッピング関数はUnitを返すので、RDD[Unit]にマップします。コードを変更して値のタプルを得ることができます

val csv_data = c_data.map{x=> 
    val w = x.split(";") 
    ... 
    val Y = w(16) 
    (w, age, job, marital_stat, education, default, balance, housing, loan, contact, day, month, duration, campaign, pdays, previous, poutcome, Y) 
}

出典

2017-04-08 11:26:55 Harald

説明をありがとう！ – Arvind

スパークで分割するには？

答えて

関連する問題