en_core_web_lgとen_vectors_web_lgの単語ベクトルの違いは何ですか?キーの数は異なります:1.1m vs 685k。これは、一般的なクロールコーパスで訓練されていてもトークンの数が異なるため、形態的な情報をやや異なるトークンにすることによって、en_vectors_web_lgがより広範囲に及ぶことを意味します。Spacy 2.0 en_vectors_web_lg vs en_core_web_lg
1
A
答えて
2
en_vectors_web_lg
パッケージには、元のGloVeモデルによって提供されたすべてのベクターがあります。 en_core_web_lg
モデルでは、v1.x en_core_web_lg
モデルのボキャブラリを使用しています。これは、メモリから、Redditコメントの100億ワードのダンプで10回未満発生したすべてのエントリを整理したものです。
理論上、削除されたベクターのほとんどは、spaCyトークナイザが生成しないものでなければなりません。しかし、完全なGloVeベクトルを使った初期の実験では、現在のNERモデルよりもわずかに高いスコアが得られました。余分なベクトルを失うことで実際に何かを逃している可能性があります。私はこれについてさらに実験を行い、おそらくlg
パッケージよりも優れた妥協点を打つmd
モデルを持っているので、lg
モデルに非プルーンベクトルテーブルを含むように切り替える可能性があります。