2016-03-24 9 views
2

私は2dのnumpyの配列を持っています。行列の各行がrddのエントリであるところからpyspark rddを作成するにはどうすればよいですか?numpy行列をpyspark rddに変換する

ように:

rddData.take(1)[0] == list(aaData[0]) 

aaDataがnumpyの2Dアレイ(行列)であり、rddDataaaDataから作成RDDありますか?

答えて

2

だけparallelizeそれ:

mat = np.arange(100).reshape(10, -1) 
rdd = sc.parallelize(mat) 

np.all(rdd.first() == mat[0]) 
## True 
関連する問題