マイナスの例が多いほど、モデル調整が行われていることを意味し、それぞれの「ターゲット」という単語はトレーニング例です。したがって、より多くの作業が行われると、というもっともらしいものがありますいくつかの目的のためにモデルが多少改良されることになります。
しかし、これらの余分な計算には、より多くのトレーニング時間が必要です。そのため、このパラメータを増やす価値は、他の選択肢と比較して重くなり、トレーニング時間の短縮をもたらします。例えば、window
を増やしたり、コーパスを介したトレーニング反復の回数を増やすことは、時間のかかるモデルをおそらく改善します。
興味深いことに、より多くの否定的な例は、ほとんどの単語の座標位置をバイアスする傾向があり、ベクトルの「雲」が原点の中心にないことを意味します。そして、少なくとも1つの最近の論文では、このバイアスを除去して、最終座標を変換して元のグローバル平均を復元する最後のステップを提案しています - いくつかのタスクで単語ベクトルの有用性を向上させることができます。
さらに、元のWord2Vecの文書では、大きなコーパスでは、負の例が十分であるか最適でない可能性があります。 'Distributed Representations of Words and Phrases and their Compositionality'のセクション2.2は、 "私たちの実験は、5から20の範囲のkの値は小さな訓練データセットには有用であるが、大きなデータセットの場合にはkは2から5まで小さくてよいことを示している。 (大規模なコーパスでは、1つの否定的な例で受け入れられる結果も見たことがあります)
異なるnegative
の値を試してみる価値があります。さらに多くの例が役立つと思ういくつかの理由がありますが、 「もっとよくなる」というケース、特に大きなコーパスでは、負の例が十分であるか最適でさえあります。