2016-10-20 3 views
1

私は単語モデルのbagのためのカスタムngramベクトル化ツールを構築しています。私は喜んでいます - 短いテキストのベクトル化中にコーパスの語彙には存在しない新しいトークンが見つかった場合、どうすればよいですか?それはちょうどスキップする必要がありますか?ngramベクトル化 - コーパスに存在しない新しいトークンが見つかった場合、どうすればいいですか?

答えて

2

スキップするか、未知語のための特別なトークンをボキャブラリに追加することができます。以前は見えなかった単語は"UNK"に置き換えられ、他の単語とまったく同じに見なすことができます。また、トレーニングデータにUNKが含まれていないという問題に対処するために、コーパス内で一度だけ発生するすべての単語をUNKに置き換えることができます。

関連する問題