私はスパークするのが初めてです。私はドキュメントの基本的な例のいくつかに従っています。 (簡易版、本物の1はほぼ40,000行を持っている)sparkでcsvファイルをループするための最善のアプローチ
date,category
19900108,apples
19900108,apples
19900308,peaches
19900408,peaches
19900508,pears
19910108,pears
19910108,peaches
19910308,apples
19910408,apples
19910508,apples
19920108,pears
19920108,peaches
19920308,apples
19920408,peaches
19920508,pears
Scalaのコードのこのビットは、カテゴリをカウントするために正常に動作
が
val textFile = sc.textFile("sample.csv")
textFile.filter(line => line.contains("1990")).filter(line =>line.contains("peaches")).count()
textFile.filter(line => line.contains("1990")).filter(line => line.contains("apples")).count()
textFile.filter(line => line.contains("1990")).filter(line => line.contains("pears")).count()
を合計:
は、私はこのようなCSVファイルを持っていますそれぞれの行をループして、年ごとにカテゴリ合計を追加するのに最適な方法は何ですか?
date,apples,peaches,pears
1990,2,2,1
1991,3,1,1
1992,1,2,2
助けていただければ幸いです。
可能重複[ピボットスパークデータフレーム(http://stackoverflow.com/questions/30244910/pivot-spark-dataframe) – zero323