jsonデータを消去するには、https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.htmlのアドバイスに従っています。SparkSessionを使用してJsonのデータセットをDataframeに変換する
しかしガイドは古く、私はsparkSession
を使用してデータセットを読み込み、jsonを解析したいと考えています。
spark.read.text('file.json').as[String].map(x => parse_json(x))
だから、私は、データセット内のJSONのラインを読みますか 、Dataset[String]
の代わりRDD[String]
になってしまいましたか?
に spark.read.text( 'file.json')。マップ(X => parse_json(x))を試してみてください。RDD – Pushkr
@Pushkrはい、作品 – user113531