0

このような質問がここにあることを願っています。 製造プロセス(センサデータ、プロセスパラメータなど)から収集されたデータがあります。生産ラインからスクラップであるかどうかわかっているすべての部品についてデータがあります。これは私が今扱っている問題です: 私は、それぞれのプロセスデータと品質(0:良い1:悪い)を持っています。あいまいなデータセット

私の目標は、製造プロセスを最適化すること、すなわち最小量のスクラップを生成する最適プロセスパラメータを見つけることです。

私はこれまで何をしましたか:さまざまな分類アルゴリズム(ランダムフォレスト、SVM、ニューラルネットワーク)を試しましたが、どれも良い精度を達成することはできません。 私は、データが非常にあいまいであると考えています。つまり、同じプロセスパラメータを持つ部品がある場合は、それらのうちのいくつかが不良品であるかもしれないが、一部が良品であるかもしれないということです。しかし、品質とプロセスパラメータの間には明確なつながりがあります。 私が今したいのは、ある部分が良いか悪いかの "確率"を予測することです。 Imo確率密度を見積もりたいですか?私はK-最近隣人でこれを行うことはできますか?

答えて

0

各パラメータについて、推定値はです。ここで、xはパラメータ値で、は良好/不良インジケータ変数です。

は、特定のディストリビューションを遵守していない可能性があります。また、そのディストリビューションの価値の種類がわからない場合は、提案をするのが難しいでしょう。そして、あなたは

経由PMFを推定することができる

よう

A "モデルフリー" のアプローチは、n個の観測のセットが指定されると、 "離散化" へのパラメータxになります

であり、同様に「悪い」場合である。

各パラメータにを設定した後、そのパラメータの「良い」ケースと「悪い」ケースの間の相対エントロピー/ KLの相違を計算できます。 2つのクラスの間でより大きな相違があるものは、最も重要なパラメータです。pmfsは、どの値がパフォーマンスの悪さを示しているかをあなたに表示します。

これは当然のことながら、実際にはそうではない可能性のあるパラメータであると仮定しているが、それに応じて離散化して離散化していない協調パラメータを考慮することによって同様の処理を行うことができる。