2017-11-13 12 views
-3

以下のデータセットがあります。 500 & 900の間の任意の値は、AとBの間で900 &〜1500の値が混合されている間に分類された.xの任意の値でA、B、Cを得る確率を求めたいA、B、Cは私の従属変数です。それは多項ロジスティック回帰に適しているようです。私は、各従属変数の観察数が十分であると信じています。多項式対数回帰が適切な場合、Pythonのscikit learnロジスティック回帰モジュールを使用して、xの任意の値でA、B、Cの確率を得ることを望みますが、そのモジュールを使用してこれにアプローチする方法がわかりません。個人的に多項ロジスティック回帰はこのデータセットに適していますか?

enter image description here

+0

あなたは混合分布と呼ばれるものを持っているように見えます。 A、B、Cはそれぞれ独自の分布を持ち、観察するのはp(A)+ p(B)p(x | B)+ p(C)p(x | C)です。典型的には(必ずしもそうではない)、混合重みp(A)、p(B)、p(C)、およびp(x | A)のパラメータを求めるために、いわゆる期待値最大化| B)、p(x | C)である。しかし、これらは非常に一般的なコメントであり、あなたがすべきことは、あなたの問題の詳細に強く依存します。おそらくあなたは議論のためにこれをstats.stackexchange.comに持っていくべきでしょう。 –

答えて

6

、それはロジスティック回帰のためのすべての右の候補者のように見えますが、それは重複して1次元に見えるという事実は、それが難しいそれらの部分に沿って分離するのかもしれません。私はあなたの質問の第二の部分に答えるために主にここにいます。これは、scikit-learn内の他のどの分類子にも一般化することができます。

属性リストのすぐ下に簡単な例があるので、SGDClassifierのscikit-learnセクションを参照することをおすすめしますが、代わりにSGDClassifierパートをLogisticRegressionクラスに置き換えてください。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

ここもロジスティック回帰のためのドキュメントです:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

関連する問題