Apache Spark DataSet API：head（n：Int）vs take（n：Int）

Apache Spark Dataset APIには、head(n:Int)とtake(n:Int)という2つのメソッドがあります。Apache Spark DataSet API：head（n：Int）vs take（n：Int）

Dataset.Scalaソースは、これら2つの関数の実行コードの違いを見つけることができませんでした

def take(n: Int): Array[T] = head(n)

が含まれています。同じ結果を得るためにAPIに2つの異なる方法があるのはなぜですか？

これは単なる実装の選択です。その点について話し合うことはほとんどありません。 – eliasah

headは、 'take'は常に' Array'を返すのに対し、あなたはそれにパラメタを渡さなければ 'Row'を返します。私は考えることができる唯一の違いです。 – philantrovert

@eliasah - だから、APIで冗長性を取ることはできますか？ –

私の見解では、Apache Spark Dataset APIがheadhttps://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.htmlを含むPandas DataFrame APIを模倣しようとしているからです。

2017-07-17 08:51:47 Luis

これは、スパークの開発者が豊富なAPIを提供する傾向があることと、まったく同じことを行うwhereとfilterという2つの方法があるからです。

2017-07-17 12:22:41

答えて