私は(String, String, String)
というデータセットを持っています。これは約6GBです。データセットを解析した後、私はgroupby
を使って(element => element._2)
を使用し、RDD[(String, Iterable[String, String, String])]
を得ました。次にforeach
要素がgroupby
toList
であり、DataFrame
に変換しています。Iterable [String、String、String]をDataFrameに変換するには?
val dataFrame = groupbyElement._2.toList.toDF()
しかし、パーケットファイル形式でデータを保存するには膨大な時間がかかります。 効率的な方法はありますか? N.B.私は5つのノードクラスタを持っています。各ノードには28 GBのRAMと4つのコアがあります。私はスタンドアロンモードを使用しており、各エグゼキュータに16 GBのRAMを与えています。
なぜRDD APIを使用するのですか?最初からDataset APIを使用してデータセットを扱うのはなぜですか? –
実際には、データセットの解析後に(String、String、String)のRDDを取得しました。 –
データセット(すべて小文字)!= aデータセット( 'D'は大文字)。あなたはデータセットを解析した後に 'RDD [(String、String、String)]'を持っていますが、Spark SQLのDataset APIを使ってデータセットを解析しないのはなぜですか?なぜSpark CoreのRDD APIを使うのですか? –