同じパーティション：データフレームのために、後に、このデータフレーム

のRDDのために、私はデータフレームDFの仕様で複数のウィンドウ関数を使用します。同じパーティション：データフレームのために、後に、このデータフレーム

windowSpec = \ 
    Window 
    .partitionBy(df['customID'])

後、私が使用します。

df.rdd.map((x[0],x[0], x[1], x[2])) 

and df.mapPartitions(some func)

私のデータフレームのkvペアを作成し、RDDのパーティションで作業します。

x[0] = df.['customID']

私の場合、私はどのように働くことができるのだろうか？すでにウィンドウスペックで使用されていたパーディショニングを維持しているのだろうか。これは、データフレームを使って作業した後で、RDDでパーティションを操作する最も効率的な方法ですか？

2017-12-03 JohnnyS

DataFrameからRDDへの変換はシャッフルを必要としないので、パーティションの内容は両方のオブジェクトで同じになります。ただし、Partitionerは保存されません。

vectroized udfはRDDよりも良い選択肢かもしれませんが、これはあなたのユースケースにはまだ十分です。

2017-12-03 13:39:17 user9046566

「vectroized udf」は何ですか？ –

答えて