2015-12-10 5 views
34

私はrandomSplit関数を使用して、開発目的で使用するデータフレームを少量取得しています。この関数によって返される最初のdfを取得するだけです。Spark Dataframeの最初の1000行を取得する方法はありますか?

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0) 

私はdf.take(1000)を使用している場合はそれが私のために動作しませんので、私は、データフレームのないrows-の配列で終わります。

dfの最初の1000行と言い、別のdfとして保存する方がいいですか?

答えて

73

お探しの方法は.limitです。

最初のn行を取得して新しいDataFrameを返します。この関数とheadの違いは、headが配列を返し、limitが新しいDataFrameを返すという点です。

+2

レコードのために、私は.limitを使用し、DataFrameの代わりにデータセットを返しました(これは問題ではありません)。 – hipoglucido

+1

ありがとうございます。 Spark 2.Xがかなり変わったようです:) – Markon

関連する問題