0

私は自分のテキスト分類子を、いくつかの言語学的理論に基づいて作成しました。分類器の最終結果は、記事タイトルとバイナリカテゴリのタプルペアです。自分のテキスト分類子を評価する方法

私はGolden標準コーパスでNBクラシファイアを使用し、PythonでSci-kitラーニングライブラリを使用してCVでその性能を評価しました。しかし、私は自分自身のクラシファイアのパフォーマンスを評価する方法を理解するのに苦労しています。 :S

私は経験豊富な機械学習者ではないので、あなたのアイデアを本当に感謝しています。

おかげで、

Guzdeh

+1

[sklearn](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics)から適切なメトリックを選択し、互換性があるようにデータを準備します。あなたのNB-CV内で良いものを選んだら、返信すると – sascha

答えて

0

分類器を評価するためには、最も一般的なメトリックは精度ですが、すべての可能なシナリオのための親指のないルールはありませんので、私はあなたが評価について少し読むことをお勧めしますクラシファイアのメトリック評価方法についても読んでください。

時間がない場合は、正確性とクロスバリデーションを行いますが、特定の指標が意味するもの、方法論の意味、混乱マトリクスの読み方、各指標と方法論の長所と短所を理解してください、そして特にその限界。 Link

Scikit相互検証のための学びユーザガイド:

Scikitは、そのメトリックのためのリファレンスページをご覧Link

あなたは、あなたの黄金の標準を持っていると述べました。あなたはあなたのモデルがあると言った。次に、メトリックと評価方法を選択するだけです。

あなたのモデルは、入力(フィーチャのセット)が与えられたときにクラス/ターゲットを予測します。予測は、あなたの地面の真実/黄金基準と比較されます。

+0

いただきありがとうございます。今度は私の分類器の精度を計算しました。私は急いで少しです。しかし、コサイン類似度スコアを使ってkNN分類を行いたいが、コサイン類似度をkNNで使用する距離に変換する方法は知られていない。オンラインで役に立つものは何も見つかりません。誰にも推奨はありますか?前もって感謝します。 :) – guzdeh

+0

コサイン類似度は対のメトリックなので、分類には直接使用しません。しかし、あなたの設計行列(ベクトル化されたテキストコーパス)で直接KNNクラシファイアを使うことができます。Scikit Learnは次のものを提供しています:http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html – Rabbit

+0

コメント。あなたの文書がどれほど似ているかを測定したい理由は何ですか?類似性によって文書をランク付けしたい場合、これは一般的な情報検索の問題です(検索エンジンに似ています)。あなたがこの指示に従うことを喜んでいれば、分類器は必要ないということを私に教えてください。 – Rabbit

関連する問題