Scala/SPARKでDataframeをRDDに変換する効率的な方法は？

私は、次の操作を行ってRDD[(String, (String, String, Map[String, Int]))]に変換dataFrame = [CUSTOMER_ID ,itemType, eventTimeStamp, valueType]を持っている：Scala/SPARKでDataframeをRDDに変換する効率的な方法は？

val tempFile = result.map({ 
    r => { 
     val customerId = r.getAs[String]("CUSTOMER_ID") 
     val itemType = r.getAs[String]("itemType") 
     val eventTimeStamp = r.getAs[String]("eventTimeStamp") 
     val valueType = r.getAs[Map[String, Int]]("valueType") 
     (customerId, (itemType, eventTimeStamp, valueType)) 
      } 
      })

私の私の入力が巨大なので、これは非常に時間がかかります。 dfをRDD[(String, (String, String, Map[String, Int]))]に変換する効率的な方法はありますか？

出典

2016-10-30 Newbie

あなたの入力はどれくらいですか？ –

DataFrameをRDDに変換するのにどれくらい時間がかかりますか？ –

DataFrameに異なる数のパーティションを設定しようとしましたか？違いはありますか？ –

あなたが説明した操作は、それが得られるほど安いです。いくつかのgetAsを実行し、いくつかのタプルを割り当てることはほとんど無料です。遅い場合は、大きなデータサイズ（7T）のためにおそらく避けられないことです。また、Catalystの最適化はRDD上で実行できないので、DataFrame操作のこの種の.mapを含むと、他のSparkショートカットがしばしば妨げられます。

出典

2016-10-30 21:37:56 Tim

Scala/SPARKでDataframeをRDDに変換する効率的な方法は？

答えて

関連する問題