2016-11-08 10 views

答えて

0

を上記のコードでは、リストをDataFrameに変換しようとしています。これに関する良いStackOverflowリンクはhttps://stackoverflow.com/a/35009289/1100699です。

from pyspark.sql import Row 

# Create RDD 
tweet_wordsList = ['tweet_text', 'RT', '@ochocinco:', 'I', 'beat', 'them', 'all', 'for', '10', 'straight', 'hours'] 
tweet_wordsRDD = sc.parallelize(tweet_wordsList) 

# Load each word and create row object 
wordRDD = tweet_wordsRDD.map(lambda l: l.split(",")) 
tweetsRDD = wordRDD.map(lambda t: Row(tweets=t[0])) 

# Infer schema (using reflection) 
tweetsDF = tweetsRDD.toDF() 

# show data 
tweetsDF.show() 

HTH:これを言っ

、ここにあなたのコードの作業バージョンです!

+0

tweet_wordsリストにはたくさんのデータがあるので、sc.parallelize()メソッドで変数tweet_wordsを使用できます。 –

+0

はい、上記のサンプルを更新して、変数 'tweet_wordsList'にアクセスしました。 HTH! –

+0

こんにちはDenny、TypeError: 'PipelinedRDD'オブジェクトが反復可能ではありません –

関連する問題