私はiOSの開発者であり、今度はsparkに切り替わります。私はSpark RDDでMaxとMinを1つの集合関数でどのように見つけることができるか知りたいですか? (Preferred Spark SQL) たとえば、私のcsvファイルにsalaryカラムがあり、これをSpark RDDに変換したいのですが、単一の関数を使用してMaxとMinを検索したいのですが、どうやってcsvファイルをRDD(スカラーが望ましい)。 私はそれをデータフレームで変換したくありません。私は最大と最小を1つの集約関数とそれをRDDで見つけることを望みます。私はMaxとMinを2度使いたくない。 spark scala
にMax
とMin
を見つけるspark RDDで単一集計関数を使ってmaxとminを見つける方法は?
答えて
でMin
とMax
を見つけることです。
集計値は、それは、あなたがすることができ、それらを持つ集計結果を結合するために2つの機能を必要とし
def comb[T](left: MinMax[T], right: MinMax[T])(implicit ordering: Ordering[T]): MinMax[T] = {
MinMax(min = ordering.min(left.min, right.min), max = ordering.max(left.max, right.max))
}
def seq[T](minMax: MinMax[T], value: T)(implicit ordering: Ordering[T]): MinMax[T] = {
comb(minMax, MinMax(value, value))
}
を凝集するために、新たな価値を付加minとmax
case class MinMax[T](min: T, max: T)
の両方を保存するカスタムオブジェクトでなければなりません集計、例えばrdd Long
val minMax = rdd.aggregate(MinMax(Long.MaxValue, Long.MinValue))((mm, t) => seq(mm, t), (l, r) => comb(l, r))
val min = minMax.min
val max = minMax.max
Spark SQLで実行する方法はありますか? –
はい、この回答を見てくださいhttps://stackoverflow.com/a/36051300/187261 –
ありがとう、私は2つの質問があります。私はあなたにメールしてもらえますか?両方の質問は難しいことではなく、私はスパークするために新しいので、私は問題に直面している。 –
方法の一つは、あなたのRDD
dataframe
に変換し、あなたがカスタム集計を実行するためにaggregate functionを使用することができますaggregation
more info
- 1. max()を使ってリスト内のmax()を見つけ、そのインデックス値を見つける方法?
- 2. SQL Serverでは、いくつかの変数のうちMAX値またはMIN値を見つける方法
- 3. 集計SQL関数MAX
- 4. jqueryを使って単語マッチを見つける方法?
- 5. MySQL - MIN/MAX値をMIN/MAX値からフェッチする方法
- 6. Spark GroupBy集計関数
- 7. min/max関数で@variableを使用するには?
- 8. xsomを使用してxsdの要素のmin-max出現を見つける方法
- 9. 一般minとmax - C++
- 10. @media min-wdthとmax-widthを使ってコンテナの幅を固定する方法
- 11. count、max、minのような簡単な集計は極端に遅い
- 12. pythonでcombinebykey spark rddを使用してグループを集計する(pyspark)
- 13. Python Min-Max関数 - minおよびmax要素を返す引数としてリストする
- 14. Maxとminは
- 15. std :: setのようにstd :: mapでmin/maxを見つけるには?
- 16. Googleマップの計算方法maxとmin LatとLong
- 17. VBのMIN/MAX関数でセルを反復処理する方法は?
- 18. mysqlクエリでmaxとcount集計関数を併用したい
- 19. RDDの最小、最大ラベルを見つける[LabeledPoint] Spark/Scala
- 20. 日付範囲をminとmax日付フィールドから見つける
- 21. ドッカーの統計情報からMAXメモリを見つける方法は?
- 22. pycparserを使って関数宣言で関数名を見つける方法は?
- 23. cqlengineを使ってカウンタフィールドの合計を見つける方法は?
- 24. datetimeのdatacolumnでmaxを見つける方法は?
- 25. JAVAのmaxとmin関数のみを使用して3つの乱数の中間の番号を見つける
- 26. はMAX、MIN関数は、私は、このテーブルを持って正しい結果
- 27. Python Spark RDD APIを使用してグループ単位で累積合計を検索する方法
- 28. AngledJsを使ってKendoDateTimePickerの日付ピッカーのMin/Maxを設定する方法
- 29. 方程式で単一の未知数を見つける
- 30. 現在の行の後に何も計算せずにMAX/MINを計算できるような数式を見つけようとしています
あなたのユースケースは少しですか?また、あなたが達成しようとしているもののいくつかの例のコードも役に立ちます。 – Tawkir
私のcsvファイルにsalaryカラムがあり、それをSpark RDDに変換したいと思い、シングル関数を使ってMaxとminを探したいとします。 –