私は2つのcsvファイルから読み込んだ2つのデータフレームを持っています。例:PySpark:2つのデータフレームを比較する方法
old
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 0.78| 0.7|
| 255836| 0.6| 0.6|
| 245281| 0.78| 0.99|
| 229166| 0.0| 0.7|
+--------+---------+----------+
new
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | 0.7|
| 255836| 0.6| 1 |
| 245281| 0.78| 0.99|
| 333 | 0.0| 0.7|
+--------+---------+----------+
と私が取得したいと思います:
expected result
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | None|
| 255836| None| 1 |
| 333 | 0.0| 0.7|
+--------+---------+----------+
は、私がデータフレームのforeachメソッドをいじるされているが、それはスパーク初心者として...仕事を得るために失敗することは感謝されます任意の手がかりのために。
乾杯!
ラファエル
実際に最後の| 333 | 0.0 | 0.7 |行を減算()を使用して、まだセルの比較でセルについては愚かです。 – Rafael