pysparkのKernelDensity.estimateは、通常配布されているデータセットで正しく機能しますか?私はそれを試みるときにエラーが発生します。pyspark.mllib.stat.KernelDensityのKernelDensity.estimateは、入力データが正規配布されている場合に機能しますか?
:私は https://issues.apache.org/jira/browse/SPARK-20803(入力データが正常に分布している場合pyspark.mllib.stat.KernelDensityでKernelDensity.estimateはnet.razorvine.pickle.PickleExceptionをスローデータが正規分布していない(エラーなし))例コードを提出しました
vecRDD = sc.parallelize(colVec)
kd = KernelDensity()
kd.setSample(vecRDD)
kd.setBandwidth(3.0)
# Find density estimates for the given values
densities = kd.estimate(samplePoints)
データがガウスでない場合は、たとえば 5.6654703477e-05,0.000100010001,0.000100010001,0.000100010001、.....スカラ座を使用して参照するために
、ガウスデータについて、 コード:私は取得
vecRDD = sc.parallelize(colVec)
kd = new KernelDensity().setSample(vecRDD).setBandwidth(3.0)
// Find density estimates for the given values
densities = kd.estimate(samplePoints)
: [0.04113814235801906,1.0994865517293571E -163,0.0,0.0、.....