2017-02-17 3 views
0

jsonデータを消去するには、https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.htmlのアドバイスに従っています。SparkSessionを使用してJsonのデータセットをDataframeに変換する

しかしガイドは古く、私はsparkSessionを使用してデータセットを読み込み、jsonを解析したいと考えています。

spark.read.text('file.json').as[String].map(x => parse_json(x)) 

だから、私は、データセット内のJSONのラインを読みますか 、Dataset[String]の代わりRDD[String]になってしまいましたか?

+1

に spark.read.text( 'file.json')。マップ(X => parse_json(x))を試してみてください。RDD – Pushkr

+0

@Pushkrはい、作品 – user113531

答えて

0

予想される構造を持つケースクラス(java pojoに似ています)を定義し、それに入力データをマップします。列は名前によって自動的に並べられ、型は保持されます。 ケースクラスPerson(:文字列、年齢:整数、技術:文字列名)のようなケースクラスを定義

{"name": "Narsireddy", "age": 30, "technology": "hadoop"} 

としてperson.json考えます。 JSONファイルを読み、人物のデータセットにマッピング

val personDataSet = sqlContext.read.json("/person.json").as[Person] 
関連する問題