2016-09-18 12 views
3

私はScalaでsparkを学んでいます。spark scalaの複数の行ファイルからJSONファイルを読み込む

[ 
    { 
    "name": "ali", 
    "age": "13", 
    "phone": "09123455737", 
    "sex": "m" 
    },{ 
    "name": "amir", 
    "age": "24", 
    "phone": "09123475737", 
    "sex": "m" 
    } 
] 

をし、ちょうどこのコードがある:私はちょうどcorrupted_row : String何も が、一列にすべての人を入れて(またはオブジェクト)、コードを受信しない

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
val jsonFile = sqlContext.read.json("path-to-json-file") 

は、次のように私は、JSONファイルを持っていますうまく動作します

sparkでJSON sqlContextを複数行読み込むにはどうすればよいですか?

答えて

5

あなたはRDDにそれを自分で読み、その後、データセットに変換する必要があります:

spark.read.json(sparkContext.wholeTextFiles(...).values)   
+0

はとても良い方法はありません。複雑なjson構造ではそれをするのは難しいですが、あなたに感謝します – reza

+1

これは、文字列の行にそれを取得するために、すでに構築されたパーサー(play-json、json4sなど)を使うことができるはずです。 read.json(RDD) 'がタイプ作業を行います。 –

+0

@JustinPihony単純に 'json(sc.wholeTextFiles(...)。values)'とは何ですか? – zero323

関連する問題