0
を選択し、私は特定の列で重複をドロップします:スパーク2.0.0は、私がデータフレームにロードされ、安定した一定のデータセットを考慮すると、スパーク2.0.0上</p> <p>をpyspark2を実行している明確な不安定な結果
vw_ticket = read_csv(...)
vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID'])
vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking')
そして、その後、
spark.sql('select count(distinct(booking_id)) from vw_ticket_in_booking t').show()
は、異なる番号をまたとない結果が得られますが、
3210は常に安定しています。理由は何でしょうか?