こんにちは私はいくつかの将来の処理のためにきれいにしようとしているやや難しいファイル形式を扱っています。私はPysparkを使ってデータをデータフレームに処理しています。PySparkは名前に基づいて複数の列にリストを分解します
ファイルはこのようになります。その中に符号化さ
AA 1234 ZXYW
BB A 890
CC B 321
AA 1234 LMNO
BB D 123
CC E 321
AA 1234 ZXYW
CC E 456
それぞれ「AA」レコードは、論理グループまたはレコードの開始を定義し、各ライン上のデータは固定長であり、持っている情報をそのI抽出したい。少なくとも20-30種類のレコードタイプがあります。それらは常に各行の先頭に2文字のコードで識別されます。第一段階として(すなわちないすべてのレコードタイプは、グループごとに存在している)、各グループに
1または多数の異なるレコードタイプが存在することができ、私はこの形式でまとめてグループにレコードを管理している:
+----------------+---------------------------------+
| index| result|
+----------------+---------------------------------+
| 1|[AA 1234 ZXYV,BB A 890,CC B 321]|
| 2|[AA 1234 LMNO,BB D 123,CC E 321]|
| 3|[AA 1234 ZXYV,CC B 321] |
+----------------+---------------------------------+
そして、私は本当にデータフレーム内の次の列にデータを取得したい第二段階として:
+----------------+---------------------------------+-------------+--------+--------+
| index| result| AA| BB| CC|
+----------------+---------------------------------+-------------+--------+--------+
| 1|[AA 1234 ZXYV,BB A 890,CC B 321]|AA 1234 ZXYV|BB A 890|CC B 321|
| 2|[AA 1234 LMNO,BB D 123,CC E 321]|AA 1234 LMNO|BB D 123|CC E 321|
| 3|[AA 1234 ZXYV,CC B 321] |AA 1234 ZXYV| Null|CC B 321|
+----------------+---------------------------------+-------------+--------+--------+
その時点で私は些細なことする必要があり、必要な情報を抽出するので。
どのようにすればよいでしょうか?
多くのありがとうございます。
で旋回させるためのいくつかの良い例を見つけることができます。あなたの助けをありがとう。 – robarthur1