私は 'df1'というデータフレームを持っていて、Xの行を持っています.1000と仮定します。私がしたいのは、そのデータフレームの具体的なサブサンプルを取得し、別のものとして保存することです。たとえば、 'df1'から400〜700の行を抽出し、 'df2'として保存したいとします。データフレームの具体的なサブサンプルを抽出し、pysparkの別のデータフレームに保存するにはどうすればよいですか?
list = df1.collect()
subsample = list[400:700]
df2 = sc.createDataFrame(subsample, attributes)
しかし、私の質問は次のとおりです:
は、私は1つの可能な方法が持つベクトルとして「DF1」の内容を取得していることを知っているのデータをロードしないで、同じ結果を得るための他の方法がありますリスト?私は巨大なデータセットを持っていると、データを収集して別のデータフレームを生成して効率的にデータをロードできないことがあるため、これを尋ねます。
ありがとうございました。
スパークには行番号がありません。 – mtoto
いいえ、属性「IDENT」が増分の場合、行番号の表現に相当しますか? – jartymcfly
これで 'filter()'を使うことができます – mtoto