2016-05-06 39 views
0

sparkの初心者として、この問題でpysparkによってSQLデータフレームに行を挿入する関数が見つかりません。例えば、私は、以下の構造のようなデータフレームを有する:ここでpysparkでSQLデータフレームに行を追加する

+----------+-----+ 
|  Time|Value| 
+----------+-----+ 
|1364763600|115.0| 
|1364763601|119.0| 
|1364763603|116.5| 
+----------+-----+ 

を、Iは、第2および第3の行の間のデータフレームの行を挿入する、インデックスは、第二列のインデックスを以下、1364763602であり、その値は、この場合の第2行、119と同じである必要があり、最後のデータフレームは次のようにすべきである:

+----------+-----+ 
|  Time|Value| 
+----------+-----+ 
|1364763600|115.0| 
|1364763601|119.0| 
|1364763602|119.0| 
|1364763603|116.5| 
+----------+-----+ 

これを達成するための任意の有効な方法があり、実際のデータフレームは、異なるノードに記憶されています。

答えて

2

DataFrameは不変の分散データ構造であるため、データを挿入することはできません。さらに、データフレームに定義された順序付けがないため、レコードの前後にレコードを挿入することはできません。それよりも、2つのレコードがクラスタ内の同じノードにある場合(パーティション・パーサーを指定して、getPartitionを呼び出すレコードをテストしない限り)は、現在も使用しません。 1レコードのDataFrameを作成して古いレコードと結合するだけです。df1.union(df2)

+0

ありがとう、@Vitaliy Kotlyarenko、私はデータをデータフレームに変換する前に修正しようとします。 –

関連する問題