私がスパークする新たなんだと私は他のすべてのRDDSに表示される項目が含まれている最終RDDをフィルタ処理しようとしています。すべてRDDSに表示される項目を取得します - Pyspark
私のコード
a = ['rs1','rs2','rs3','rs4','rs5']
b = ['rs3','rs7','rs10','rs4','rs6']
c = ['rs10','rs13','rs20','rs16','rs1']
d = ['rs2', 'rs4', 'rs5', 'rs13', 'rs3']
a_rdd = spark.parallelize(a)
b_rdd = spark.parallelize(b)
c_rdd = spark.parallelize(c)
d_rdd = spark.parallelize(d)
rdd = spark.union([a_rdd, b_rdd, c_rdd, d_rdd]).distinct()
結果:[ 'RS4'、 'RS16'、 'RS5'、 'RS6'、 'RS7'、 'RS20'、 'RS1'、 'RS13'、「RS10 」、 'RS2'、 'RS3']
私の予想結果は[ある 'RS3'、 'RS4']
をありがとう!
です。 https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.distinct。内側の結合をチェックしてみてください。私の悪い、それはそのAPIドキュメントのページを見つけられませんでした –
、私はそれに多くの時間を費やします、私はあなたがこのように追加することができますreduce' 'への提案持ってあなたに – pthphap