私は複数のjsonレコードを含むシーケンスファイルを持っています。すべてのjsonレコードを関数に送りたい。一度に1つのjsonレコードを抽出するにはどうすればよいですか?spark scalaのシーケンスファイルからjsonレコードを抽出する
0
A
答えて
0
残念ながら、これを行う標準的な方法はありません。
1つのファイルに複数のYAML「ドキュメント」が含まれるように明確に定義されているYAMLとは異なり、JSONにはそのような標準はありません。
問題を解決する1つの方法は、独自の「オブジェクトセパレータ」を作成することです。たとえば、改行文字を使用して、隣接するJSONオブジェクトを区切ることができます。 JSONエンコーダに改行文字を出力しないよう伝えることができます(\
とn
にエスケープすることによって)。 JSONデコーダは、2つのJSONオブジェクトを分離しない限り、改行文字を認識しない限り、一度に1行ずつ読み込み、各行をデコードできます。
suggested JSON配列を使用して複数のJSONオブジェクトを格納することもできますが、それはもはや「ストリーム」にはなりません。
0
シーケンスファイルの内容をRDD [String]に読み込んでSpark Dataframeに変換することができます。
val seqFileContent = sc
.sequenceFile[LongWritable, BytesWritable](inputFilename)
.map(x => new String(x._2.getBytes))
val dataframeFromJson = sqlContext.read.json(seqFileContent)
関連する問題
- 1. Scala jsonの抽出
- 2. Sparkでテキストファイルから複数行レコードを抽出する方法
- 3. Scalaを使用してmysqlからデータを抽出し、sparkを
- 4. Scalaカフカからのjsonレコードの解析
- 5. jsonファイルからケースクラスを抽出するscala play
- 6. SparkのプレーンテキストファイルをHadoopシーケンスファイルに変換
- 7. gzipからシーケンスファイルに変換します。 Hive on spark
- 8. JSONレスポンスからアイテムを抽出する
- 9. JSONファイルからデータを抽出する
- 10. JSONフィードからデータを抽出する
- 11. バックスバッチ抽出データベースからのxmlレコード
- 12. Spark SQLのパスからファイル名のみを抽出するUDF
- 13. JSONでレコードの最初のセットを抽出するC#
- 14. Spark - データセットからn個の行を抽出するには?
- 15. テキストからJSONを抽出します。
- 16. jsonレスポンスからjsonレスポンスの値を抽出する#
- 17. _metadataをフラット化し、ESのSpark scalaの_idキー値を抽出します
- 18. Sparkを使用してDynamoDB JSON文字列からネストされたJsonフィールドを抽出しますか?
- 19. Scala/SparkでRDDからデータを取り出す
- 20. Scala 2.10リフレクション、ケースクラスからフィールド値を抽出する方法
- 21. Spark Scala Dataframe:n番目のレコードを削除する
- 22. Scalaのファイルからバイトの範囲を抽出します
- 23. jsonオブジェクトからのデータの抽出
- 24. JSON配列からの値の抽出
- 25. URLからのJSONオブジェクトの抽出
- 26. JSONからのデータの抽出URL
- 27. JSONからの値の抽出
- 28. 安心:JSONからの値の抽出
- 29. Sparkでシーケンスファイルを作成できますか?
- 30. spark scala入出力ディレクトリ