2016-05-04 8 views
2

なしスパークからの最初の四分位、第三四分位数、およびIQR SQLContextデータフレーム、私はデータフレームがあります。ハイブを使用しないスカラ - ハイブ

data.show() 
+--------+------+------------------+ 
| Count| mean|    stdev| 
+--------+------+------------------+ 
|  5| 6337| 1684.569470220803| 
|  3| 7224| 567.8250904401182| 
|  330| 20280|23954.260831863092| 
|  42| 26586| 32957.9072313323| 
... 
|  49| 23422|21244.094701798418| 
|  4| 36949| 8616.596311769514| 
|  35| 20915|14971.559603562522| 
|  33| 20874|16657.756963894684| 
|  14| 22698|15416.614921307082| 
|  25| 19100| 12342.11627585264| 
|  27| 21879|21363.736895687238| 
+--------+------+------------------+ 

を、私は最初の四分位、二四分位とIQR(四分位を取得したいです範囲)を意味します。

他のソリューションは誰でもアクセスできないハイブを使用しているようです。

Hive Solution 1

Hive Solution 2

Solution for Python

答えて

1

私が最初にこれはかなり高価な解決策であると思われることに注意したいのですが、私はハイブを使用してwihtoutたい正確に何を取得します。あなたがハイブを使うことができれば、それはもっと簡単にはできないので、絶対にやってください。

私はcommons-math3 jarを使用してしまいました。これを使用するトリックは、データフレームからデータを取り出し、math3ライブラリで消費するための配列にデータを渡すことでした。私はHEREからそれを解決しました。列のデータ型に基づいて "asInstanceOf"を再生する必要があるかもしれません。

import org.apache.commons.math3.stat.descriptive._ 

// Turn dataframe column into an Array[Long] 
val mean = data.select("mean").rdd.map(row => row(0).asInstanceOf[Long]).collect() 

// Create the math3 object and add values from the 
// mean array to the descriptive statistics array 
val arrMean = new DescriptiveStatistics() 
genericArrayOps(mean).foreach(v => arrMean.addValue(v)) 

// Get first and third quartiles and then calc IQR 
val meanQ1 = arrMean.getPercentile(25) 
val meanQ3 = arrMean.getPercentile(75) 
val meanIQR = meanQ3 - meanQ1