2016-10-18 8 views
-1

私は今はランダムに選択し、N = 2(任意の数であってもよい)対重量列から、次のペアを作成する場合、各ペアは、2点の不均等な重みで構成されて、次のデータフレームをPYSPARK:データフレームを扱うには?

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
from pyspark.sql.functions import * 

sc = SparkContext() 
sql = SQLContext(sc) 

df1 = sql.createDataFrame([("Mark", 68), ("John", 59), ("Mary", 49)], ['Name', \ 
'Weight']) 

df2 = sql.createDataFrame([("White", 68), ("Smith", 59), ("Gary", 49)], ['Name', \ 
    'Weight']) 

を有する:

(68, 59) 
(49, 68) 

その後、私はDF1体重68と49を持つもの、および体重59と68とのDF2からのみのみから選択して、別のデータフレームを作成したい:

df3 = sql.createDataFrame([("Mark", 68, "Smith", 59), ("Mary", 49, "White", 68)], ['Name1', \ 
    'Weight1', 'Name2', 'Weight2']) 

私は大きなデータを扱っています。 nが与えられると、まずn組を生成し、最終的なデータフレームを作成する必要があります。

答えて

0

試してみてください。

>>> df1.where(df1['Weight'].between(68, 59)).union(df2.where(df2['Weight'].between(49, 68))) 
+0

おかげで、私はペアの任意の番号を持つことができ、すなわち、nは与えられた、私が最初に発生するn個のペアと、最終的なデータフレームを作成する必要があります。 – Alex

関連する問題