私は最近導入されたSpark Datasetsのフルパワーを理解するのに苦労しています。Spark DataSetとRDDの違い
RDDをいつ使用し、データセットをいつ使用するのがベストプラクティスですか?
announcement Databricksでは、データセットを使用することによって、ランタイムとメモリの両方で驚異的な削減が達成できることが説明されています。それでも、データセットは既存のRDD APIと連携して機能するように設計されていると主張されています。
これは単なる下位互換性の参考にすぎませんか、またはデータセットに対してRDDを使用するシナリオがありますか?
チェックします。https://のstackoverflow。com/a/45253013/1592191 – mrsrinivas