0
私は私が単語のリストのこのRDD持っworks.so stackoverflowのの、インターネット何も上のすべての答えを経てい
:を見て単語のリストのRDDからデータフレームを作成する方法
:を見て単語のリストのRDDからデータフレームを作成する方法
を上記のコードでは、リストをDataFrameに変換しようとしています。これに関する良いStackOverflowリンクはhttps://stackoverflow.com/a/35009289/1100699です。
from pyspark.sql import Row
# Create RDD
tweet_wordsList = ['tweet_text', 'RT', '@ochocinco:', 'I', 'beat', 'them', 'all', 'for', '10', 'straight', 'hours']
tweet_wordsRDD = sc.parallelize(tweet_wordsList)
# Load each word and create row object
wordRDD = tweet_wordsRDD.map(lambda l: l.split(","))
tweetsRDD = wordRDD.map(lambda t: Row(tweets=t[0]))
# Infer schema (using reflection)
tweetsDF = tweetsRDD.toDF()
# show data
tweetsDF.show()
HTH:これを言っ
、ここにあなたのコードの作業バージョンです!
tweet_wordsリストにはたくさんのデータがあるので、sc.parallelize()メソッドで変数tweet_wordsを使用できます。 –
はい、上記のサンプルを更新して、変数 'tweet_wordsList'にアクセスしました。 HTH! –
こんにちはDenny、TypeError: 'PipelinedRDD'オブジェクトが反復可能ではありません –