2016-12-22 40 views
0

文字列を含む列を持つpysparkデータフレームがあります。PySparkデータフレームの文字列の分割内容

>>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') 
>>> sentenceData.show(truncate=False) 
+---+---------------------------+ 
|key|desc      | 
+---+---------------------------+ 
|1 |Virat is good batsman  | 
|2 |sachin was good   | 
|3 |but modi sucks big big time| 
|4 |I love the formulas  | 
+---+---------------------------+ 


Expected Output 
--------------- 

>>> sentenceData.show(truncate=False) 
+---+-------------------------------------+ 
|key|desc         | 
+---+-------------------------------------+ 
|1 |[Virat,is,good,batsman]    | 
|2 |[sachin,was,good]     | 
|3 |....         | 
|4 |...         | 
+---+-------------------------------------+ 

どのように私はこれを達成することができます:私は言葉に

コードをこの列を分割したいですか?

答えて

3

使用split機能:

from pyspark.sql.functions import split 

df.withColumn("desc", split("desc", "\s+"))