Word2Vectorでは、単語の埋め込みは、共起を使用して学習され、お互いのコンテキストで発生する単語が互いに接近するように。ニューラルネットワークの既存の埋め込みスペースに新しい単語ベクトル埋め込みを追加する効果
私の質問は以下のとおりです。
1)あなたはすでに埋め込みの事前訓練されたセットを持っている場合は、変更することなく、この埋め込み空間に10個の追加の単語を追加することができる、のは40kの言葉で100次元空間を言わせて既存の単語の埋め込み。したがって、既存の単語埋め込みを使用して新しい単語のディメンションを更新するだけです。私はこの問題を「単語2ベクトル」アルゴリズムに関して考えていますが、GLoVe埋め込みがこの場合どのように機能するかについての洞察を人が持っていれば、私はまだ非常に興味があります。
2)質問のパート2は次のとおりです。以前の埋め込みセットで訓練されたNNにNEW単語埋め込みを使用でき、妥当な結果が期待できますか?たとえば、感情分析のためにNNを訓練し、以前に「神経質」という言葉が語彙に含まれていなかった場合、「神経質」は正しく「否定的」に分類されます。
これは、埋め込みに関するNNがどれほど敏感であるか(または堅牢な)かについての質問です。私は思考/洞察力/指導に感謝します。
私は、このアイデアをさらに追求する前に、あなたが一般的なコンセンサスであることを期待していました。私は、クラシファイアのために「意味の一般化可能な近傍」をカバーするためにオリジナルの単語セットを必要とすることに関して、あなたが言ったことは理にかなっていると思います。それは一般的に使われているフレーズ「一般化可能な近隣の意味」ですか?それは私がそれについて考えると完璧な意味を持ちます。 –
私はそれが一般的だとは思わないが、それは私がそれについて考えている方法だ。ある程度、訓練プロセスは、可能な限り内部訓練テキストが提供する意味の範囲内で、内部予測タスクを良好にするために全領域を使用する。物理的なテキストだけで「ホット」と「コールド」を学ぶと、そのドメインの単語と方向は隔てられますが、後で感情的/架空のテキストを同じアンカー空間に押し込むと、 「冷たい」気分は、それを有効に対照的な方法で位置づけるほどの自由度を持たないかもしれない。 – gojomo