spark scalaのシーケンスファイルからjsonレコードを抽出する

私は複数のjsonレコードを含むシーケンスファイルを持っています。すべてのjsonレコードを関数に送りたい。一度に1つのjsonレコードを抽出するにはどうすればよいですか？spark scalaのシーケンスファイルからjsonレコードを抽出する

出典

2016-10-21 satyambansal117

残念ながら、これを行う標準的な方法はありません。

1つのファイルに複数のYAML「ドキュメント」が含まれるように明確に定義されているYAMLとは異なり、JSONにはそのような標準はありません。

問題を解決する1つの方法は、独自の「オブジェクトセパレータ」を作成することです。たとえば、改行文字を使用して、隣接するJSONオブジェクトを区切ることができます。 JSONエンコーダに改行文字を出力しないよう伝えることができます（\とnにエスケープすることによって）。 JSONデコーダは、2つのJSONオブジェクトを分離しない限り、改行文字を認識しない限り、一度に1行ずつ読み込み、各行をデコードできます。

suggested JSON配列を使用して複数のJSONオブジェクトを格納することもできますが、それはもはや「ストリーム」にはなりません。

出典

2016-11-04 12:51:30 wks

シーケンスファイルの内容をRDD [String]に読み込んでSpark Dataframeに変換することができます。

val seqFileContent = sc 
    .sequenceFile[LongWritable, BytesWritable](inputFilename) 
    .map(x => new String(x._2.getBytes)) 
val dataframeFromJson = sqlContext.read.json(seqFileContent)

出典

2017-03-30 11:54:55 Gorini4

spark scalaのシーケンスファイルからjsonレコードを抽出する

答えて

関連する問題