-1
私は今はランダムに選択し、N = 2(任意の数であってもよい)対重量列から、次のペアを作成する場合、各ペアは、2点の不均等な重みで構成されて、次のデータフレームをPYSPARK:データフレームを扱うには?
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import *
sc = SparkContext()
sql = SQLContext(sc)
df1 = sql.createDataFrame([("Mark", 68), ("John", 59), ("Mary", 49)], ['Name', \
'Weight'])
df2 = sql.createDataFrame([("White", 68), ("Smith", 59), ("Gary", 49)], ['Name', \
'Weight'])
を有する:
(68, 59)
(49, 68)
その後、私はDF1体重68と49を持つもの、および体重59と68とのDF2からのみのみから選択して、別のデータフレームを作成したい:
df3 = sql.createDataFrame([("Mark", 68, "Smith", 59), ("Mary", 49, "White", 68)], ['Name1', \
'Weight1', 'Name2', 'Weight2'])
私は大きなデータを扱っています。 nが与えられると、まずn組を生成し、最終的なデータフレームを作成する必要があります。
おかげで、私はペアの任意の番号を持つことができ、すなわち、nは与えられた、私が最初に発生するn個のペアと、最終的なデータフレームを作成する必要があります。 – Alex