SparkでJSON（csvに保存されたパス）をロードするには？

私はSparkを初めて使用しています。 Sparkで.jsonファイルを読み込むことができます。フォルダに何千もの.jsonファイルがある場合はどうなりますか？ picture of .json files in the folder SparkでJSON（csvに保存されたパス）をロードするには？

そして、.jsonファイルをラベルで分類するcsvファイルがあります。 picture of csv file

データをロードして保存する場合はどうすればよいですか（たとえば、csvの最初の情報を読み込みたいのですが、テキスト情報ですが、.json、そして、私は出力を保存し、.jsonをロードしたい私が最初に信頼できるラベルグラフのJSONの情報を知っているので）

2016-06-20 Fengyu

JSONの場合：。。については

jsonRDD = sql_context.read.json("path/to/json_folder/");

CSVがspark-csvをインストールここからDatabricks' spark-csv

csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true')

2016-06-20 19:41:19

ありがとうございました。もう一つの質問。 .jsonの何千もの作業を並行させるにはどうすればいいですか？マップ＆縮小？ – Fengyu

また、2.0.0以降では、csvの解析はSpark自体の一部であり、spark-csvにはもう依存する必要はありません。 – BenFradet

答えて