2016-07-10 10 views
-3

は、擬似コードの下に見つけてください:rddデータをpysparkのデータフレームに挿入するには?

5列スキーマ(6列)とターゲットデータフレームを作成

source_dataframe内の項目については

ソースデータフレーム:チェック購入リストに列を#adding item.coulmn2 list = [item.column1、item.column2、newcolumn] #このリストからrddを作成する #このrddをターゲットデータフレームに追加する必要がありますか?

答えて

0

あなたの質問をもっと詳しく説明したり、サンプルコードを書いたりできます。私は他の人がそれを解決する方法に興味があります。私の提案するソリューションは次のとおりです。

df = (
    sc.parallelize([ 
     (134, "2016-07-02 12:01:40"), 
     (134, "2016-07-02 12:21:23"), 
     (125, "2016-07-02 13:22:56"), 
     (125, "2016-07-02 13:27:07") 
     ]).toDF(["itemid", "timestamp"]) 
) 

rdd = df.map(lambda x: (x[0], x[1], 10)) 
df2 = rdd.toDF(["itemid", "timestamp", "newCol"]) 

df3 = df.join(df2, df.itemid == df2.itemid and df.timestamp == df2.timestamp, "inner").drop(df2.itemid).drop(df2.timestamp) 

私はRDDをDataframeに変換しています。その後、いくつかの列を複製する両方のDataframesに参加します。だから、私はそれらの重複した列を削除します。

+0

ありがとうございます!私のシナリオはちょっと複雑ですが、これで問題は解決しました。 これからは、質問をもっと詳しく説明します。 –

関連する問題