Spark DataFrameで同じ列に複数回call funcが混乱する

RDDsは、複数回使用する場合はcache()になるはずです。Spark DataFrameで同じ列に複数回call funcが混乱する

しかし、DataFrameはどうですか？この例

思考：

df = spark.createDataFrame([('1', ['a', 'B']), ('2', ['C', 'd'])], ['idx', 'item']) 
res = df.select(df['idx'], *[upper(df['item'][i]) for i in range(2)])

私は二回コラムdf['item']にupperを呼び出します。

upperをもう一度実行すると、dfが再度生成されますか？

cache()をdfに電話する必要がありますか？

出典

2017-08-29 Zhang Tong

キャッシュする必要はありません。お客様のコードはdfに一度だけアクセスします。列を参照する：

df['item'][i]

データの計算を必要としません。

出典

2017-08-29 10:01:48 user8371915

Spark DataFrameで同じ列に複数回c​​all funcが混乱する

答えて

関連する問題

Spark DataFrameで同じ列に複数回call funcが混乱する