2
私は2dのnumpyの配列を持っています。行列の各行がrddのエントリであるところからpyspark rddを作成するにはどうすればよいですか?numpy行列をpyspark rddに変換する
ように:
rddData.take(1)[0] == list(aaData[0])
aaData
がnumpyの2Dアレイ(行列)であり、rddData
はaaData
から作成RDDありますか?
私は2dのnumpyの配列を持っています。行列の各行がrddのエントリであるところからpyspark rddを作成するにはどうすればよいですか?numpy行列をpyspark rddに変換する
ように:
rddData.take(1)[0] == list(aaData[0])
aaData
がnumpyの2Dアレイ(行列)であり、rddData
はaaData
から作成RDDありますか?
だけparallelize
それ:
mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)
np.all(rdd.first() == mat[0])
## True