私はidとcolAという2つのinicialカラムを持つデータフレームで作業しています。PySpark:もう1つの列をdataFrameに追加するにはどうすればよいですか?
+---+-----+
|id |colA |
+---+-----+
| 1 | 5 |
| 2 | 9 |
| 3 | 3 |
| 4 | 1 |
+---+-----+
私は、もっと別の列にCOLBをそのデータフレームをマージする必要があります。私はcolBがdataFrameの最後に完全に合っていることを知っています。これらの結果は
+-----+
|colB |
+-----+
| 5 |
| 9 |
| 3 |
| 1 |
+-----+
、私は以下のような新しいDATAFRAME取得する必要があります。
+---+-----+-----+
|id |colA |colB |
+---+-----+-----+
| 1 | 5 | 8 |
| 2 | 9 | 7 |
| 3 | 3 | 0 |
| 4 | 1 | 6 |
+---+-----+-----+
これは最初のデータフレームを取得するためにpysparkコードです:
l=[(1,5),(2,9), (3,3), (4,1)]
names=["id","colA"]
db=sqlContext.createDataFrame(l,names)
db.show()
どのように私がやる?誰も助けてくれませんか?ありがとう
あなたはスパークにデータフレームに任意の列を追加することはできません - ここに広範な答えを参照してください。https://stackoverflow.com/questions/33681487/how-do-i-add-a -new-column-to-a-spark-dataframe-using-pyspark – desertnaut
[PySparkを使用してSpark DataFrameに新しい列を追加する方法は?](https://stackoverflow.com/questions/33681487)新しい列を追加する方法) – desertnaut