0
次のDataFrameがあるとします。Spark SQLのキーが同じで、合計値が加算される行を合計します。
+----+-----+
|lang|count|
+----+-----+
| en| 4|
| en| 5|
| de| 2|
| en| 2|
| nl| 4|
| nl| 5|
+----+-----+
どのように私は(行の量を低下させることなく、このように)一意の各言語の「カウント」の値を合計し、新しい列としてこの値を追加しますか?データフレームがDStream
にmap
操作により構築されている
+----+-----+----------------+
|lang|count|totalCountInLang|
+----+-----+----------------+
| en| 4| 11|
| en| 5| 11|
| de| 2| 2|
| en| 2| 11|
| nl| 4| 9|
| nl| 5| 9|
+----+-----+----------------+
:私の例では
、これがもたらすであろう。
これを達成するための最良の方法は何ですか? DataFramesを使うよりも効率的な方法がありますか?
ありがとうございます!