のは、私は、彼らが書いた言葉のためにユーザーのための列と別の列とDataFrame
を持っているとしましょう:PySparkで爆発の反対を行う方法は?
Row(user='Bob', word='hello')
Row(user='Bob', word='world')
Row(user='Mary', word='Have')
Row(user='Mary', word='a')
Row(user='Mary', word='nice')
Row(user='Mary', word='day')
私はベクターにword
列を集約したいと思います:
Row(user='Bob', words=['hello','world'])
Row(user='Mary', words=['Have','a','nice','day'])
それを後の集約ステップを期待しているので、私はSparksのグループ化関数を使用することはできないようです。私は、これらのデータをWord2Vec
にフィードして、他のSparkアグリゲーションを使用しないようにしています。
ニースソリューションエヴァン:実際にデータフレーム
collect_set
を用いて、溶液(またはcollect_list
)がであることを私は私のポストの後まもなく実現しました!私もpysparkデータフレームソリューションを投稿しようとしていましたが、あなたはすでに考えていました:) – titipata