2017-04-11 16 views
0

NLCの仕組みについては混乱します。私が期待するのは、テキストを分類するように要求されたとき、そこから学ぶべき関係や訓練データを持たないことは、結果や結果が非常に低い信頼スコアで返されるべきでないということです。自然言語分類器は訓練されていない項目の分類を返します

私は訓練データセットを使ってモデルを訓練しました。訓練データ以外のテキストを分類しようとすると、高い確信度(〜60%)の結果が得られます。

はここに私のトレーニングデータの例です:私はテキストを分類しようとすると

foo,1,2,3,4 
bar,1,2,3,4 
baz,1,2,3,4 

は「これが存在してはならない」私はこのテキストが「1」であることを高い信頼を受けます。

この場合、値を返す必要があるという私の仮定は正しいですか? foo、bar、およびbazを誤って分類するためにデータを訓練していますか? NLCサービスから何が期待できないのでしょうか?

答えて

0

3つのバケツがあり、そのうちの1つにコインを投げる必要があるとします。各バケットには、コインを得るために33.3%の変更があります。 Natural Language Classifierサービスでも同じことが起こります。入力テキストをあらかじめ定義されたクラスに分類するように訓練されています。

3クラスの分類器を作成して、訓練データにないテキストを分類しようとすると、NLCは依然として、定義した3つのクラスの1つに文を分類します。出力が60%の場合、残りの2つのバケットは残りの40%を取得します。

時にはスコアが高くなることがあります。クラスが非常に異なる場合は、それが正常な場合もあります。

関連する問題