単語のリストのRDDからデータフレームを作成する方法

私は私が単語のリストのこのRDD持っworks.so stackoverflowのの、インターネット何も上のすべての答えを経てい

2016-11-08 Lalit Kushwah

を上記のコードでは、リストをDataFrameに変換しようとしています。これに関する良いStackOverflowリンクはhttps://stackoverflow.com/a/35009289/1100699です。

from pyspark.sql import Row 

# Create RDD 
tweet_wordsList = ['tweet_text', 'RT', '@ochocinco:', 'I', 'beat', 'them', 'all', 'for', '10', 'straight', 'hours'] 
tweet_wordsRDD = sc.parallelize(tweet_wordsList) 

# Load each word and create row object 
wordRDD = tweet_wordsRDD.map(lambda l: l.split(",")) 
tweetsRDD = wordRDD.map(lambda t: Row(tweets=t[0])) 

# Infer schema (using reflection) 
tweetsDF = tweetsRDD.toDF() 

# show data 
tweetsDF.show()

HTH：これを言っ

、ここにあなたのコードの作業バージョンです！

出典

2016-11-08 16:56:49

tweet_wordsリストにはたくさんのデータがあるので、sc.parallelize（）メソッドで変数tweet_wordsを使用できます。 –

はい、上記のサンプルを更新して、変数 'tweet_wordsList'にアクセスしました。 HTH！ –

こんにちはDenny、TypeError： 'PipelinedRDD'オブジェクトが反復可能ではありません –

単語のリストのRDDからデータフレームを作成する方法

答えて

関連する問題