データフレームが2つあるとします。df1とdf2です。 df1とdf2の両方に「id」列が含まれています。私は、結果のDF、df1primeは、DF2で見つかったすべてのID、 のDF1 スパーク:どのように結合を使用せずに行をフィルタリングする?
- IDのみを有するように、DF1をフィルタリングします
結合を使用しない。これどうやってするの? DFの代わりにRDDに戻るのは助けになりますか? pysparkとscalaの両方の応答が歓迎されます。
ありがとうございます!
編集:私はあなたが本当に唯一の(あなたがあなたの質問に述べるよう)あなたの
df1prime
にidをしたい場合、あなたは、単に(スカラ)を行うことができますDF1
何が問題ですか? [here](http://stackoverflow.com/questions/42351669/how-to-filter-duplicate-records-having-multiple-key-in-spark-dataframe/)を参照してください。 – mtoto
特に結合には何も問題はありませんが、より安価な操作を探すのが好都合です – tohweizhong
データフレームがある場合、反結合は最も安価な操作になります。もし 'rdd'で作業したいなら' cougroup() 'を使いフィルタリングすることができます。 – mtoto