DataFrame.select（）とDataFrame.toDF（間で異なるが、どのようなものです）

彼らのすべてが新しいデータフレームDataFrame.select（）とDataFrame.toDF（間で異なるが、どのようなものです）

ソースコードを返すようだ：

def toDF(self, *cols): 
    jdf = self._jdf.toDF(self._jseq(cols)) 
    return DataFrame(jdf, self.sql_ctx) 


def select(self, *cols): 
    jdf = self._jdf.select(self._jcols(*cols)) 
    return DataFrame(jdf, self.sql_ctx)

出典

2016-12-16 Zhang Tong

違いは微妙ですが。例えば.toDF("name", "age")を使用してデータフレームに無名のタプル("Pete", 22)を変換し、あなたも再びtoDFメソッドを呼び出すことにより、データフレームの名前を変更することができます場合は

。たとえば：あなたは後で表を投影する、または必要な列だけを保存するために使用できる列を、選択することができます選択を使用して

scala> val rdd = sc.parallelize(List(("Piter", 22), ("Gurbe", 27))) 
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[2] at parallelize at <console>:27 

scala> val df = rdd.toDF("name", "age") 
df: org.apache.spark.sql.DataFrame = [name: string, age: int] 

scala> df.show() 
+-----+---+ 
| name|age| 
+-----+---+ 
|Piter| 22| 
|Gurbe| 27| 
+-----+---+ 

scala> val df = rdd.toDF("person", "age") 
df: org.apache.spark.sql.DataFrame = [person: string, age: int] 

scala> df.show() 
+------+---+ 
|person|age| 
+------+---+ 
| Piter| 22| 
| Gurbe| 27| 
+------+---+

：

scala> df.select("age").show() 
+---+ 
|age| 
+---+ 
| 22| 
| 27| 
+---+ 

scala> df.select("age").write.save("/tmp/ages.parquet") 
Scaling row group sizes to 88.37% for 8 writers.

・ホープこのことができます！

出典

2016-12-16 07:17:52

DataFrame.select（）とDataFrame.toDF（間で異なるが、どのようなものです）

答えて

関連する問題