-3
は、擬似コードの下に見つけてください:rddデータをpysparkのデータフレームに挿入するには?
5列スキーマ(6列)とターゲットデータフレームを作成 source_dataframe内の項目についてはと
は、擬似コードの下に見つけてください:rddデータをpysparkのデータフレームに挿入するには?
5列スキーマ(6列)とターゲットデータフレームを作成 source_dataframe内の項目についてはと
あなたの質問をもっと詳しく説明したり、サンプルコードを書いたりできます。私は他の人がそれを解決する方法に興味があります。私の提案するソリューションは次のとおりです。
df = (
sc.parallelize([
(134, "2016-07-02 12:01:40"),
(134, "2016-07-02 12:21:23"),
(125, "2016-07-02 13:22:56"),
(125, "2016-07-02 13:27:07")
]).toDF(["itemid", "timestamp"])
)
rdd = df.map(lambda x: (x[0], x[1], 10))
df2 = rdd.toDF(["itemid", "timestamp", "newCol"])
df3 = df.join(df2, df.itemid == df2.itemid and df.timestamp == df2.timestamp, "inner").drop(df2.itemid).drop(df2.timestamp)
私はRDDをDataframeに変換しています。その後、いくつかの列を複製する両方のDataframesに参加します。だから、私はそれらの重複した列を削除します。
ありがとうございます!私のシナリオはちょっと複雑ですが、これで問題は解決しました。 これからは、質問をもっと詳しく説明します。 –