Iスパーク1.6概念的な違いSpark 2.0のRDDとデータセットの関係は?
- What is the difference between Spark DataSet and RDD
- Difference between DataSet API and DataFrame
- http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes
- https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
を読み取るデータセットは、より改善されたデータフレーム("Conceptually Spark DataSet is just a DataFrame with additional type safety")のようであると思われます。 Spark 2.0ではもっと多くのものがimproved RDDのように見えます。前者はリレーショナル・モデルを持ち、後者はリストのようなものです。 Spark 1.6では、データセットはDataFramesの拡張であると言われていましたが、Spark 2.0 DataFramesはType [Row]
を含む単なるデータセットであり、DataFramesをDatasetの特別なケースにして、DataFramesをDatasetsの特別なケースにしました。今私は少し混乱している。 Spark 2.0のデータセットは、概念的にはRDDやDataFramesに似ていますか? 概念的なのRDDとSpark 2.0のデータセットの違いは何ですか?