私はデータフレームを持っており、特定の行の行番号/インデックスを取得する必要があります。私はそれが行番号/インデックスだけでなく、文字を含むように新しい行を追加したいと思います。 "A - 1"、 "B - 2" 私はこのようなものになるように置く新しいアウトたいPySpark - UDFから行のインデックスを取得
+------+---------+
|Letter|distances|
+------+---------+
| A| 20|
| B| 30|
| D| 80|
+------+---------+
出力と
#sample data
a= sqlContext.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "distances"])
、
+------+---------------+
|Letter|distances|index|
+------+---------------+
| A| 20|A - 1|
| B| 30|B - 2|
| D| 80|D - 3|
+------+---------------+
これは、私が働いている機能
def cate(letter):
return letter + " - " + #index
a.withColumn("index", cate(a["Letter"])).show()
[この](https://stackoverflow.com/a/35948427/3433323)は役に立ちますか? (idsを作成し、行idを関数 'cate'の引数に渡します) – mkaran