pysparkでSQLデータフレームに行を追加する

sparkの初心者として、この問題でpysparkによってSQLデータフレームに行を挿入する関数が見つかりません。例えば、私は、以下の構造のようなデータフレームを有する：ここでpysparkでSQLデータフレームに行を追加する

+----------+-----+ 
|  Time|Value| 
+----------+-----+ 
|1364763600|115.0| 
|1364763601|119.0| 
|1364763603|116.5| 
+----------+-----+

を、Iは、第2および第3の行の間のデータフレームの行を挿入する、インデックスは、第二列のインデックスを以下、1364763602であり、その値は、この場合の第2行、119と同じである必要があり、最後のデータフレームは次のようにすべきである：

+----------+-----+ 
|  Time|Value| 
+----------+-----+ 
|1364763600|115.0| 
|1364763601|119.0| 
|1364763602|119.0| 
|1364763603|116.5| 
+----------+-----+

これを達成するための任意の有効な方法があり、実際のデータフレームは、異なるノードに記憶されています。

出典

2016-05-06 Fly_back

DataFrameは不変の分散データ構造であるため、データを挿入することはできません。さらに、データフレームに定義された順序付けがないため、レコードの前後にレコードを挿入することはできません。それよりも、2つのレコードがクラスタ内の同じノードにある場合（パーティション・パーサーを指定して、getPartitionを呼び出すレコードをテストしない限り）は、現在も使用しません。 1レコードのDataFrameを作成して古いレコードと結合するだけです。df1.union(df2)

出典

2016-05-06 18:06:05

ありがとう、@Vitaliy Kotlyarenko、私はデータをデータフレームに変換する前に修正しようとします。 –

pysparkでSQLデータフレームに行を追加する

答えて

関連する問題