0
RDDs
は、複数回使用する場合はcache()
になるはずです。Spark DataFrameで同じ列に複数回call funcが混乱する
しかし、DataFrameはどうですか?この例
思考:
df = spark.createDataFrame([('1', ['a', 'B']), ('2', ['C', 'd'])], ['idx', 'item'])
res = df.select(df['idx'], *[upper(df['item'][i]) for i in range(2)])
私は二回コラムdf['item']
にupper
を呼び出します。
upper
をもう一度実行すると、df
が再度生成されますか?
cache()
をdf
に電話する必要がありますか?