私が知る限り、Apache sparkでは、jsonファイルに1つの文字列を1つだけ格納する必要があります。私はこのようなフィールドjsonファイルで分割されています:Apache spark jsonを分割レコードで解析する
{"id": 123,
"name": "Aaron",
"city": {
"id" : 1,
"title": "Berlin"
}}
{"id": 125,
"name": "Bernard",
"city": {
"id" : 2,
"title": "Paris"
}}
{...many more lines
...}
どのように私はそれを解析することができますか?プリプロセッサが必要か、カスタムスプリッタを提供できますか?
使用しているSparkのバージョンは何ですか? – mrsrinivas
@mrsrinivas 1.6.2。それは問題ですか? – Aguinore
わかりません。しかし、スパークのバージョンに応じて答えを加えることを考えました。 – mrsrinivas