2017-11-08 12 views

答えて

2

en_vectors_web_lgパッケージには、元のGloVeモデルによって提供されたすべてのベクターがあります。 en_core_web_lgモデルでは、v1.x en_core_web_lgモデルのボキャブラリを使用しています。これは、メモリから、Redditコメントの100億ワードのダンプで10回未満発生したすべてのエントリを整理したものです。

理論上、削除されたベクターのほとんどは、spaCyトークナイザが生成しないものでなければなりません。しかし、完全なGloVeベクトルを使った初期の実験では、現在のNERモデルよりもわずかに高いスコアが得られました。余分なベクトルを失うことで実際に何かを逃している可能性があります。私はこれについてさらに実験を行い、おそらくlgパッケージよりも優れた妥協点を打つmdモデルを持っているので、lgモデルに非プルーンベクトルテーブルを含むように切り替える可能性があります。