問題文は次のように多少です:バイナリの分類は、ルールベースのアプローチではなく、適切なアルゴリズムで
は、ウェブサイトを考えると、我々は2つの定義済みのクラスのいずれかにそれを分類する必要がある(と言うその電子商取引か)
私たちはすでに複数の前処理技術(ストップワード除去、ステミングなど)と適切な機能を備えたNaive Bayes Algorithmsを試しています。
精度を90以上に近づけたいと考えていますが、このアプローチでは得られていません。
ここで問題となるのは、精度を手動で評価する際に、Googleのアルゴリズムでは紛失することがあるウェブページ(チェックアウトボタン、ショップ/ショッピング、ペイパルなど)でいくつかの識別子を探します。
これらの識別子があまりにも確信が持てる場合は、rule based classifier
を作成して、一連の規則(ある優先度に基づいて書かれています)に従ってページを分類してください。
ショップ/ショッピングが含まれていて、チェックアウトボタンがある場合は、それはeコマースページです。 多くの同様のルールが優先順位があります。
いくつかのルールによっては、ウェブサイトの他のページにもアクセスします(現在、私たちはホームページだけを訪問しており、それはあまり正確性が高くないためです)。
ルールベースのアプローチで直面する潜在的な問題は何ですか?それとも、ユースケースの方が良いでしょうか?
洗練されたアルゴリズム(たとえばFOIL, AQ
など)でルールを作成することをおすすめしますか?
「規則ベースのすべての分類子を決定木として表すことができる」または「規則に基づく分類子が決定木と同等である」という文を妨げる唯一の事柄は、サイクルを有する規則的でないルールセットまたはルールセットを作成することができ、定義上、決定木は非周期的です。 –