比較のために、2つの列 "A"、 "B"を持つテーブル "T"があるとします。 HDFSデータベースにはhiveContextもあります。理論的にはSpark DataFrame vs sqlContext
、次の高速です:私たちは、データフレームを作る
sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")
または「DF」はこれらの単純な種類のためにT.を参照するデータフレームである
df.groupBy("A").sum("B")
1つの方法を他の方法よりも優先させる理由がありますか?