SparkSessionを使用してJsonのデータセットをDataframeに変換する

しかしガイドは古く、私はsparkSessionを使用してデータセットを読み込み、jsonを解析したいと考えています。

spark.read.text('file.json').as[String].map(x => parse_json(x))

だから、私は、データセット内のJSONのラインを読みますか、Dataset[String]の代わりRDD[String]になってしまいましたか？

2017-02-17 user113531

に spark.read.text（ 'file.json'）。マップ（X => parse_json（x））を試してみてください。RDD – Pushkr

@Pushkrはい、作品 – user113531

予想される構造を持つケースクラス（java pojoに似ています）を定義し、それに入力データをマップします。列は名前によって自動的に並べられ、型は保持されます。ケースクラスPerson（：文字列、年齢：整数、技術：文字列名）のようなケースクラスを定義

{"name": "Narsireddy", "age": 30, "technology": "hadoop"}

としてperson.json考えます。 JSONファイルを読み、人物のデータセットにマッピング

val personDataSet = sqlContext.read.json("/person.json").as[Person]

2017-02-17 04:01:22 Narsireddy

答えて