私はSQL以上の特定のスパークSQLでこれを行うことができる方法の範囲0,10,20,30,40,...80,90,100,110,120
への集約やビンの値を希望スパークSQL - 範囲
+---------------+------+
|id | value|
+---------------+------+
| 1|118.0|
| 2|109.0|
| 3|113.0|
| 4| 82.0|
| 5| 60.0|
| 6|111.0|
| 7|107.0|
| 8| 84.0|
| 9| 91.0|
| 10|118.0|
+---------------+------+
ANSのようなテーブルを持っているに集計データフレーム?
現在のところ、私は範囲との結合に側面を持っていますが、これはやや不器用で非効率的です。
離散化された分位は実際には私が望むものではなく、むしろCUT
の範囲です。
編集
https://github.com/collectivemedia/spark-ext/blob/master/sparkext-mllib/src/main/scala/org/apache/spark/ml/feature/Binning.scalaは、動的なビンを行うだろうが、私はむしろ、この指定された範囲が必要になります。
私は答えを更新しました。それはあなたが探しているものですか? –
かなり。最初の一見でかなりよく見えます。ありがとう。 –
'org.apache.spark.ml.feature.Bucketizer'は明示的に指定された分割点の配列をとります。その後、出力列をグループ化することができます。 –