5

ロジスティック回帰モデルをトレーニングデータに適合させた後に受け取る各係数の有意水準を得る方法はありますか?pysparkのロジスティック回帰係数のsignificane値を抽出できますか

私は方法を見つけようとしていて、自分自身を理解できませんでした。

私はchi sqテストを実行した場合、各機能の重要度を得ることができると思いますが、最初にすべての機能をテストすることができるかどうかわからず、数値データ値を持っています正しい結果かどうかは、依然として問題のままです。

は、今私は、誰もがいくつかの光を当てることができれば

、それが参考になるstatsmodelを使用してモデリング一部を実行していますし、学ぶscikit確かに、私はpySparl MLやMLLib自体から、これらの結果を得ることができる方法を知りたい

答えて

3

私はmllibのみを使用しています。あなたはモデルをトレーニングするときにtoPMMLメソッドを使用してモデルun PMML形式(xmlファイル)をエクスポートし、xmlファイルを解析して機能の重みを得ることができると思います。ここに例文

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

希望することができます

+0

この応答ありがとうございます。現時点では、私はpysparkを使用して入力データをELTした後、統計モデルに切り替えてモデリングを行ったハイブリッドアプローチを使用しました。それは私のために働いています。確かに私はスパークの利益を失ったが、それはちょうど私の目的のために助けた。 – CARTman

関連する問題