1
私は、次の操作を行ってRDD[(String, (String, String, Map[String, Int]))]
に変換dataFrame = [CUSTOMER_ID ,itemType, eventTimeStamp, valueType]
を持っている:Scala/SPARKでDataframeをRDDに変換する効率的な方法は?
val tempFile = result.map({
r => {
val customerId = r.getAs[String]("CUSTOMER_ID")
val itemType = r.getAs[String]("itemType")
val eventTimeStamp = r.getAs[String]("eventTimeStamp")
val valueType = r.getAs[Map[String, Int]]("valueType")
(customerId, (itemType, eventTimeStamp, valueType))
}
})
私の私の入力が巨大なので、これは非常に時間がかかります。 df
をRDD[(String, (String, String, Map[String, Int]))]
に変換する効率的な方法はありますか?
あなたの入力はどれくらいですか? –
DataFrameをRDDに変換するのにどれくらい時間がかかりますか? –
DataFrameに異なる数のパーティションを設定しようとしましたか?違いはありますか? –