連続した3行のデータセットをロードする方法

|T 2009-08-26 17:1...| 
|U http://twitter....| 
|  W No Post Title| 
|     | 
|T 2009-11-01 02:4...| 
|U http://twitter....| 
|  W No Post Title| 
|     | 
|T 2009-11-18 16:5...| 
|U http://twitter....| 
|  W No Post Title| 
|     |

今私はこのようなデータを持っています私は4行ごとにグループ化したいと思います。連続した3行のデータセットをロードする方法

だから、1つの行が

T 2009-X-XX U http://xxxx  W xxxxxxx"

が可能ということですが含まれますか？あるいは、ヘッダをT UとWとするCSVファイルに変換する方法はありますか？おかげさまで

出典

2017-12-02 Wei Xi

は、それがすべての空行が含まれていることを一貫性のある形式です3行（それは1つと考えられるべきですか？） –

あなたのような3行のテキスト形式を扱う独自のカスタムTextBasedFileFormatを書くことが唯一の解決策だと思います。

インスピレーションのためorg.apache.spark.sql.execution.datasources.csv.CSVFileFormatを参照してください。

はCSVFileFormatが行区切りとして空行と容易にフォーマットを扱うことができることを可能とすることができます。

出典

2017-12-03 09:23:10

次のデータフレームのフォーマットでそれらを得ることができればあなたが簡単に行をマージすることができます：あなたが行うことができます

+-------+--------------------+ 
|line_nr|    line| 
+-------+--------------------+ 
|  0|T 2009-08-26 17:...| 
|  1|U http://twitter...| 
|  2|  W No Post Title| 
|  3|     | 
|  4|T 2009-11-01 02:...| 
|  5|U http://twitter...| 
|  6|  W No Post Title| 
|  7|     | 
|  8|T 2009-11-18 16:...| 
|  9|U http://twitter...| 
|  10|  W No Post Title| 
|  11|     | 
+-------+--------------------+

ザ・：

df 
    .groupBy((floor(($"line_nr")/4)).as("line_group")) 
    .agg((concat_ws("", collect_list($"line"))).as("line")) 
    .show(false) 

+----------+----------------------------------------------------------------------------------+ 
|line_group|line                    | 
+----------+----------------------------------------------------------------------------------+ 
|0   |T 2009-08-26 17:1...U http://twitter....  W No Post Title     | 
|1   |T 2009-11-01 02:4...U http://twitter....  W No Post Title     | 
|2   |T 2009-11-18 16:5...U http://twitter....  W No Post Title     | 
+----------+----------------------------------------------------------------------------------+

出典

2017-12-03 11:07:46

連続した3行のデータセットをロードする方法

答えて

関連する問題