2

私はSparkを初めて使用しています。 Sparkで.jsonファイルを読み込むことができます。フォルダに何千もの.jsonファイルがある場合はどうなりますか? picture of .json files in the folderSparkでJSON(csvに保存されたパス)をロードするには?

そして、.jsonファイルをラベルで分類するcsvファイルがあります。 picture of csv file

データをロードして保存する場合はどうすればよいですか(たとえば、csvの最初の情報を読み込みたいのですが、テキスト情報ですが、.json、そして、私は出力を保存し、.jsonをロードしたい私が最初に信頼できるラベルグラフのJSONの情報を知っているので)

答えて

1

JSONの場合:。。については

jsonRDD = sql_context.read.json("path/to/json_folder/"); 

CSVspark-csvをインストールここからDatabricks' spark-csv

csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true') 
+0

ありがとうございました。もう一つの質問。 .jsonの何千もの作業を並行させるにはどうすればいいですか?マップ&縮小? – Fengyu

+1

また、2.0.0以降では、csvの解析はSpark自体の一部であり、spark-csvにはもう依存する必要はありません。 – BenFradet

関連する問題