PYSPARK：データフレームを扱うには？

-1

私は今はランダムに選択し、N = 2（任意の数であってもよい）対重量列から、次のペアを作成する場合、各ペアは、2点の不均等な重みで構成されて、次のデータフレームをPYSPARK：データフレームを扱うには？

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
from pyspark.sql.functions import * 

sc = SparkContext() 
sql = SQLContext(sc) 

df1 = sql.createDataFrame([("Mark", 68), ("John", 59), ("Mary", 49)], ['Name', \ 
'Weight']) 

df2 = sql.createDataFrame([("White", 68), ("Smith", 59), ("Gary", 49)], ['Name', \ 
    'Weight'])

を有する：

(68, 59) 
(49, 68)

その後、私はDF1体重68と49を持つもの、および体重59と68とのDF2からのみのみから選択して、別のデータフレームを作成したい：

df3 = sql.createDataFrame([("Mark", 68, "Smith", 59), ("Mary", 49, "White", 68)], ['Name1', \ 
    'Weight1', 'Name2', 'Weight2'])

私は大きなデータを扱っています。 nが与えられると、まずn組を生成し、最終的なデータフレームを作成する必要があります。

出典

2016-10-18 Alex

試してみてください。

>>> df1.where(df1['Weight'].between(68, 59)).union(df2.where(df2['Weight'].between(49, 68)))

出典

2016-10-18 20:04:40

おかげで、私はペアの任意の番号を持つことができ、すなわち、nは与えられた、私が最初に発生するn個のペアと、最終的なデータフレームを作成する必要があります。 – Alex

PYSPARK：データフレームを扱うには？

答えて

関連する問題