私は次の問題に直面しています: 私はデータフレーム(acc_name)の列の要素と比較する必要があるリストを持っています。私は、次のループ機能を使用していますが、それはbs_list要素がacc_name列のサブセットであるPysparkpysparkのループエラーのため
bs_list =
['AC_E11','AC_E12','AC_E13','AC_E135','AC_E14','AC_E15','AC_E155','AC_E157',
'AC_E16','AC_E163','AC_E165','AC_E17','AC_E175','AC_E180','AC_E185', 'AC_E215','AC_E22','AC_E225','AC_E23','AC_E23112','AC_E235','AC_E245','AC_E258','AC_E25','AC_E26','AC_E265','AC_E27','AC_E275','AC_E31','AC_E39','AC_E29']
for i in bs_list:
bs_acc1 = (acc\
.filter(i == acc.acc_name)
.select(acc.acc_name,acc.acc_description)
)
を使用して私に30 を提供しなければならないときには、私だけ1つのレコードを返します。私は次の2つの列acc_name、acc_descriptionを持つ新しいDFを作成しようとしています。リストにある要素の値の詳細のみが含まれますbs_list 私はどこが間違っているのか教えてください。
リスト内の要素に対してRDDを反復しようとしています。代わりに、RDDの各要素でリストを反復しようとします。 – Dandekar