2つのスパークデータフレームがあります。
データフレームA:2つのデータフレームを結合して新しいデータフレームに格納する
Col_A1 Col_A2
1 ["x", "y", "z"]
2 ["a", "x", "y"]
3 ["a", "b", "c"]
データフレームB:
Col_B1
"x"
"a"
"y"
私が持っている、と言う、そのCol_A2におけるデータフレームBの"x"
、それが新規としてそれを返すデータフレームAのどのエントリをチェックしたいですデータフレームそのもの。
DATAFRAME A_X:
Col_A1 Col_A2
1 ["x", "y", "z"]
2 ["a", "x", "y"]
DATAFRAME A_A:
Col_A1 Col_A2
2 ["a", "x", "y"]
3 ["a", "b", "c"]
繰り返し私は
出力のようなものである必要があり、データフレームBのエントリの残りの部分のために同じことをやりたいです
データフレームA_y
Col_A1 Col_A2
1 ["x", "y", "z"]
2 ["a", "x", "y"]
私はudfsとmap関数を使ってみましたが、私が探しているものは実際には得られませんでした。 ありがとうございます。
データフレームBを 'collect()'することは可能ですか、それとも禁止的なほど大きいのですか? – desertnaut
回答が役に立たない? – desertnaut