0
私は同じ長さの2つのRDDを持っていて、それらを無作為に一緒にジッパーしたいと思います(例えば最初のRDDは(A、B、C、D) Y、Z)と私は(AX、BZ、CW、DY)のようなランダムなジップをしたい。この使用pySparkを行うための高速な方法は何でしょうか。spark:スクランブルRDDとそれらをジップ
私は同じ長さの2つのRDDを持っていて、それらを無作為に一緒にジッパーしたいと思います(例えば最初のRDDは(A、B、C、D) Y、Z)と私は(AX、BZ、CW、DY)のようなランダムなジップをしたい。この使用pySparkを行うための高速な方法は何でしょうか。spark:スクランブルRDDとそれらをジップ
何が必要このですか?
x = sc.parallelize(['A','B','C','D'])
y = sc.parallelize(['W','X','Y','Z'])
x = x.takeSample(False, 4)
y = y.takeSample(False, 4)
combine = zip(x,y)
combine
>> [('D', 'Z'), ('B', 'X'), ('A', 'W'), ('C', 'Y')]
することができます:
私は「take」したくないです、私は新しい順番で圧縮された古いRDDをランダムな順序で入れたいです。 e 'sample'と小数点以下の '1.0'は物事を並べ替えません。 – cgreen