5

におけるニューラルネットワークの埋め込みの性能を評価します。私は、スキップグラムアーキテクチャを使用して、エンティティのセットのための私の監督されていない神経ネットワークを訓練します。は、私が分類問題を解決していますk最近傍分類器

私が評価する方法が、トレーニングデータから検証データの各ポイントについてのk最近傍を検索することです。私は最近隣のラベルの加重和(距離に基づく重み)を取って、検証データの各点のそのスコアを使用します。

観察 - ( - 600エポック、model 2から1400エポックとmodel 3からmodel1 2000エポック)私はエポックの数を増やすと、私のAUCはkの小さな値に改善するが、同様の値で飽和します。

何がこの動作の可能な説明だろうか? CrossValidatedから

enter image description here

[Reposted]

+0

カスタマーレビューを2つのカテゴリに分類しようとしています。埋め込みは、sentence2vecを使用して訓練されます。私はhadoop用のカスタムkNN分類器を書いています。 – kampta

+0

2つのクラスの間に分離性が十分でないことがありますか?たとえば、これが何らかの感情分析であった場合、私たちはしばしば二重否定表現を経験し、それが素朴な分類子を混乱させる可能性があります。 –

+0

もし 'model3'がそのようなケースを分類する方が良いのであれば、' model1'よりも良いAUCはありませんか? – kampta

答えて

0

SVMモデルを当てはめてみてください、不均衡のクラスが問題にしているかどうかを確認するに渡ります。それがより良い分類(ANNがそれほど深くない場合に可能)を与えるならば、クラスが最初にバランスをとるべきであると結論づけることができます。

また、この変換は、データが線形分離可能かどうかを確認するためにいくつかのカーネルの機能を試してみてください?

関連する問題