csvファイルから既存のApacheスパークデータフレームへのデータの追加私は2つの列があり、スパークデータフレームを持って
[Row(name=u'Alice', age=2), Row(name=u'Bob', age=5)]
データフレームを使用して作成された
sqlContext.createDataFrame()
私が次に行う必要があるのは、外部 'csv'ファイルから3番目の列 'UserId'を追加することです。外部ファイルにはいくつかの列を持っているが、私は「ユーザーID」でのみ、最初の列を含める必要があります。
両方のデータソース内のレコード数が同じです。私はWindows OS上でスタンドアロンのpysparkバージョンを使用しています。最終結果は、UserId、Name、Ageの3つの列を持つ新しいデータフレームである必要があります。
提案がありますか?