Spark Dataframeの最初の1000行を取得する方法はありますか？

私はrandomSplit関数を使用して、開発目的で使用するデータフレームを少量取得しています。この関数によって返される最初のdfを取得するだけです。Spark Dataframeの最初の1000行を取得する方法はありますか？

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

私はdf.take(1000)を使用している場合はそれが私のために動作しませんので、私は、データフレームのないrows-の配列で終わります。

dfの最初の1000行と言い、別のdfとして保存する方がいいですか？

お探しの方法は.limitです。

最初のn行を取得して新しいDataFrameを返します。この関数とheadの違いは、headが配列を返し、limitが新しいDataFrameを返すという点です。

2015-12-10 16:12:40 Markon

レコードのために、私は.limitを使用し、DataFrameの代わりにデータセットを返しました（これは問題ではありません）。 – hipoglucido

ありがとうございます。 Spark 2.Xがかなり変わったようです:) – Markon

答えて