2016-08-12 3 views
-2

機械学習アルゴリズムを使用すると、2つの混乱があります。最初は、私はそれを使っていると言わなければなりません。機械学習のいくつかの混乱

  1. 二つのカテゴリーAとBがありますが、私は彼らの混合物からできるだけ多くを選択したい場合は、アルゴリズムのどのような私は(サンプル数を考慮する必要)を使用するべきではありません。最初は分類アルゴリズムでなければならないと思いました。そして、たとえばTMVAパッケージで意思決定ツリーを強化していますが、誰かがBDTが回帰アルゴリズムであると私に言いました。

  2. 私は粗いデータを持っています。私がそれをBDTに投げ込む前に分析すると(いくつかの組み合わせをすると...)、粗いデータをBDTに投げるよりも良い結果が得られます。粗いデータにはすべての情報が含まれているので、なぜ自分で分析する必要がありますか?

あなたは明確ではないですか?コメントを追加してください。あなたに私に助言を与えることができれば幸いです。

+0

を使用する必要がありますか?また、クラシファイアで使用したパラメータ(例:n_classifier、max_depthなど) – maxymoo

+0

自分のデータはいくつかのパーティクルです。パーティクルには、px、py、pz、eという運動量があり、x方向の運動量、yの方向、エネルギーを意味します。これは粗いデータです。異なるカテゴリーAおよびBについて、AおよびBの質量は異なる。したがって、その質量= sqrt(e^2-px^2-py^2-pz^2)を組み合わせることができます。また、cos = pz/sqrt(px^2 + py^2 + pz^2)のような他の意味のある変数を組み合わせるために、4つのモーメンタム(粗いデータ)を使用することもできます。ご覧のように、すべての「分析されたデータ」は「粗いデータ」の組み合わせですが、「分析されたデータ」はBDTのより良い入力です。 – insomnia

+0

"!H:!V:NTrees = 850:MinNodeSize = 2.5%:MaxDepth = 5:BoostType = AdaBoost:AdaBoostBeta = 0.5:UseBaggedBoost:BaggedSampleFraction = 0.5:SeparationType = GiniIndex:nCuts = 20" BDTの場合。 – insomnia

答えて

-1

MLはあなたの問題に対するアプローチですか?その場合には、いくつかの分類アルゴリズムは、 ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン、desicion treeなどとなります。

+0

私はMLが方法だと思う。しかし、分類アルゴリズムの決定木では、サンプルをいくつかのカテゴリに分割しました。各カテゴリーのサンプル番号が異なる場合でも、同じ順序ではなくても、この部門はより多くのサンプルを持つカテゴリーに偏っています。 (例えば、基準がエントロピーの場合)私は混合物からカテゴリーを「選択」したと言いました。私はそれが少し違うと思う。 – insomnia

+0

そして私は他人を使ってはいません。 – insomnia

1

2の場合、アルゴリズムに組み込まれていないため、データを操作してより良い結果を得るには、analyzeにデータを操作する必要があります。それはデータとclassifiesだけを見ます。あなたがそれを置くときの分析の問題は、feature selectionまたはfeature engineeringと呼ばれ、手動で行う必要があります(もちろん、深い学習などの機能を学ぶ何らかの技法を使用していない限り)。機械学習では、操作/設計されたフィーチャが未加工フィーチャよりも優れた性能を発揮することが数多く見られています。

1については、BDTを回帰および分類に使用できると思います。これは、分類の問題(選択するかしないか)のように見えます。したがって、あなたはあなたの "分析されたデータ"と一緒にあなたの "粗いデータ"の例を添付することができますあなたは分類アルゴリズム

+0

ありがとう、これは私が知りたいことです。しかし、私はまだ機能の選択の後にいくつかの情報を失うことが理解できない、なぜ我々はより良​​い結果を得ることができます。私の意見では、MLアルゴリズムが完璧であれば、それは自動的に分析されるべきです。もう1つの問題は、より多くの変数(組み合わせ)を追加すると、結果が改善されるということです。それは私がすべての組み合わせを置くことを示すように思われるので、少し愚かなようです。最後の質問は、scikit-learnで、決定木アルゴリズムのデフォルトの基準はジニーとエントロピーです。私は新しいカテゴリーを自分自身のように書くことができますか?Aカテゴリーの数/すべての数字 – insomnia

+0

@ insomnia機能の選択後、いくつかの情報は失われますが、その情報は重要ではありません。私は情報を失うものではなく、情報のより重要な部分に焦点を当てる(より多くの重みを与えるなど)。例えば、性別を推測しようとするときの人の体重を知りたいが、昨夜は彼が食べたものではない。 –

+0

また、「無料のランチ定理なし」についても読んでいるはずです。 MLは魔法ではなく、物事を微調整しなければならず、MLアルゴリズムは自動的に分析することはできません。さまざまな機能の組み合わせは、SVM(ガウスカーネル)やニューラルネットワークなどのアルゴリズムを使用することで自動的に考慮されることがありますが、微調整が必​​要です。 –