これは前のquestionのフォローアップです。
は、キー値のペアの順序付けられたセットです。 DataFrame
はRows
のコレクションです。
実際にはDataFrame
というデータ構造は何ですか?リスト、セット、または他の「コレクション」ですか?それはSQLのようにrelation
ですか?SparkのDataFrameはどのようなデータ構造ですか?
-1
A
答えて
1
それはRDD[Row]
以上の抽象化だ、またはSpark2でDataset[Row]
、一連Column
クラス
を設定して定義されたスキーマでは、リスト、セット、または他の「コレクション」となっていますか?
Javaの言葉ではありません。 RDDとはまったく同じではなく、むしろ「遅延コレクション」
SQLと同様の関係ですか?
SparkSQLをDataframeで実行することはできますが、それはテーブルです。関係はオプションです
1
DataframeはRDDよりも抽象的ですが、Dataframeの内部表現はRDDとはまったく異なります。
RDDはJavaオブジェクトとして表され、すべての操作にJVMを使用します。ただし、Dataframeはタングステンで表されます。
ここには、データフレームがタングステンでどのように表現されているかを詳しく説明する優れたarticleがあります。
関連する問題
- 1. Spark/Scala:構造体タイプのSpark DataFrame列
- 2. 複雑な入れ子構造のSpark Dataframeを変更するにはどうすればよいですか?
- 3. どのような種類のデータ構造ですか?
- 4. Pythonデータ型、それはどのようなデータ構造ですか?
- 5. Inode番号のデータ構造はどのようなものですか?
- 6. Pythonの表のようなデータ構造
- 7. データをどのように構造化できますか?
- 8. データ構造:辞書のような木
- 9. Apache Spark - 3次元データ用に最適なデータ構造は何ですか?
- 10. googlemapのようなアプリケーションのデータ構造ですか?
- 11. このようなデータ構造は存在しますか?
- 12. 私はこのような構造でPyspark DATAFRAMEをしました
- 13. キャッシュのようなメカニズム(どのデータ構造)?
- 14. C++ STLには他にどのようなデータ構造がありますか?
- 15. 私のデータ構造はどうですか?
- 16. spark DataFrame列のデータ型をプログラムで検証するにはどうすればよいですか?
- 17. csvは構造化データか半構造化データですか?
- 18. 構造体の値でDataFrameをクエリするにはどうすればよいですか?
- 19. WPFは私のデータ構造は次のようになり
- 20. どのようなクラス構造が必要ですか?
- 21. どのようにVHDLのスタック/キューのようなデータ構造を実装するのですか?
- 22. はどのようにこの構造
- 23. memcacheはsplqueueのようなPHPでデータ構造を保存できますか?
- 24. DataFrame APIはSparkのRDDにどのように依存しますか?
- 25. このデータを最もよく表すデータ構造はどれですか?
- 26. C#データ構造体:どのようなコレクションを使用しますか?
- 27. どのようなデータベースが非構造化データに適していますか
- 28. は、私はこのようなデータ構造を持つアルゴリズム
- 29. Cのような構造
- 30. 私はこのようなデータ構造を持つ角度2
私が答えようとする前に、_ "Rowは順序付けされたキーバリューペアです。また、あなたが_ "DataFrameは行のコレクションです"と言ったとき、あなたは他の質問に答えなかった_ "DataFrameは実際に何のデータ構造ですか?" –
(1)行が順序付けされたセットであると言って間違っていました。(前の質問のコメントを参照してください)(2)_DataFrameは行のコレクションです。私はより "理論的"な答えを探しています。 – Michael