0
私はUbuntuでjupyterを使っています。マルチキーとシングル値のpysparkでreduceByKeyを使うにはどうすればいいですか?
だから私は、次の問題を抱えている、これは私のコードです:
from pyspark import SparkContext
sc = SparkContext.getOrCreate()
ut = sc.textFile("hdfs://localhost:54310/hduser/firstnames")
rows= ut.map(lambda line: line.split(";"))
res = rows.filter(lamda row: row[2] >= "2000" and row[2] <= "2004")
res = res.map(lambda row: ({row[1],row[2]},int(row[3])))
出力:
[({'2001', 'Brussel'}, 113),
({'2001', 'Vlaanderen'}, 16),
({'2002', 'Brussel'}, 12)]
I:
[({'2001', 'Brussel'}, 9),
({'2001', 'Brussel'}, 104),
({'2001', 'Vlaanderen'}, 16),
({'2002', 'Brussel'}, 12), ...]
私は私の出力は次のようにする必要があります以前はreduceByKeyでいくつか試してみましたが、 はreduceByKey、buについて多くの質問を受けましたそれを理解できなかった。前もって感謝します。
感謝を!今すぐうまくいく! –