0
頻出アイテムセットを識別するためにデータセットを処理する必要があります。したがって、入力列はベクトルでなければなりません。元の列は、カンマで区切られた項目の文字列ですので、私は次のようでした:スパークデータフレーム列をベクトルからセットに変換する方法は?
functions.split(out_1['skills'], ',')
問題がskills
で、一部の行のために、私は重複した値であるとしようとしたとき、これは、エラーの原因となっています頻出アイテムセットを識別する。
複製された要素を削除するために、ベクトルをセットに変換したかったのです。このような何か:
functions.to_set(functions.split(out_1['skills'], ','))
しかし、私はつまり、何to_set
関数が存在しない、設定するためのベクトルから列を変換する機能を見つけることができませんでした。
ベクターから複製された要素を削除するにはどうしたらよいですか?