2012-04-17 28 views
2

私は分類のためにエクスプローラ機能を使用しています。私の.arffデータファイルには、数値とバイナリの10個の機能があります。 (インスタンスのIDだけが公称です)。私は16のインスタンスを持っています。予測するクラスはYes/Noです。Naive Bayesを使用していますが、結果を解釈できません。ベイビスの分類結果の解釈方法を知っていますか?Wekaマシン学習:どのようにNaive Bayesクラシファイアをインタープレットするのですか?

+0

多くの解釈が可能です。私の精度であるように、出力から得たいものについて具体的にしてください。 –

+0

実際に私は意思決定(YEs/No)につながる重要な機能を見たいと思っています。しかし、NBが与えるすべてのものは、確率、平均、stddvなどです。さらに、すべての機能についてです。それは私の問題です。私は今、あなたが私を理解してくれることを願っています...しかし、正確さとリコールはどのような情報を私に与えますか? – Armand

答えて

1

Naive Bayesは重要な機能を選択しません。あなたが言及したように、Naive Bayes分類子の訓練の結果は、すべての特徴の平均と分散である。新しいサンプルを「はい」または「いいえ」に分類するのは、サンプルのフィーチャの値が、「はい」または「いいえ」のいずれかの訓練されたフィーチャの平均および分散と最もよく一致するかどうかに基づいています。

他のアルゴリズムを使用して最も有益な属性を見つけることができます。その場合、デシジョンツリークラシファイアを使用することができます。 WE40のJ48(これはオープンソースの実装であるC4.5 decision tree algorithmです)。結果の決定木の最初のノードは、どの機能が最も予測能力があるかを示します。

(他の投稿のRushdi Shamsの記載のとおり)さらに優れています。 Wekaのエクスプローラは、データセット内で最も有用な属性を見つける目的の構築オプションを提供します。これらのオプションはSelect attributesタブにあります。

+0

あなたは正しいです。私はちょうどWekaの意思決定木の分類子を使用し、それは私にとって重要な特徴を選択しました。手伝ってくれてどうもありがとう。 – Armand

1

シッコとしてNBはあなたに最高の機能を提供することはできません。意思決定ツリーは良い選択です。なぜなら、ブランチングで重要な機能を教えてくれることがあるからですが、常にそうではありません。シンプルから複雑なフィーチャセットを処理するために、WEKAのSELECT ATTRIBUTEタブを使用できます。そこで、検索方法と属性評価ツールを見つけることができます。あなたの仕事に応じて、あなたに最も適したものを選ぶことができます。彼らはあなたに機能のランキングを提供します(トレーニングデータから、またはk倍のクロスバリデーションから)。個人的には、あなたのデータセットがオーバーフィットしていると意思決定ツリーが悪いと思う。その場合、機能のランク付けは、最良の機能を選択するための標準的な方法です。ほとんどの場合、私は情報とランクのアルゴリズムを使用します。あなたの属性が1からkまでランク付けされているのを見たら、必要な機能と不要な機能を理解することは本当にうれしいです。

関連する問題