PySparkデータフレームの文字列の分割内容

文字列を含む列を持つpysparkデータフレームがあります。PySparkデータフレームの文字列の分割内容

>>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') 
>>> sentenceData.show(truncate=False) 
+---+---------------------------+ 
|key|desc      | 
+---+---------------------------+ 
|1 |Virat is good batsman  | 
|2 |sachin was good   | 
|3 |but modi sucks big big time| 
|4 |I love the formulas  | 
+---+---------------------------+ 


Expected Output 
--------------- 

>>> sentenceData.show(truncate=False) 
+---+-------------------------------------+ 
|key|desc         | 
+---+-------------------------------------+ 
|1 |[Virat,is,good,batsman]    | 
|2 |[sachin,was,good]     | 
|3 |....         | 
|4 |...         | 
+---+-------------------------------------+

どのように私はこれを達成することができます：私は言葉に

コードをこの列を分割したいですか？

出典

2016-12-22 Hardik gupta

使用split機能：

from pyspark.sql.functions import split 

df.withColumn("desc", split("desc", "\s+"))

出典

2016-12-22 12:54:30 user7330462

PySparkデータフレームの文字列の分割内容

答えて

関連する問題