2017-11-17 16 views
0

スペーシーmodelsは、語彙、構文、エンティティおよびベクトルを含む異なる「タイプ」に関連付けられています。エンティティとベクトルがドキュメントで利用可能なフィーチャにマップされる方法は明らかです(エンティティ認識とワードベクトル)が、テキストを解析した後にドキュメントで使用できるフィーチャとボキャブラリと構文はどのように関係していますか?例えば、多言語モデル「xx_ent_wiki_sm」は「語彙」を提供しないので、そのモデルを使用してトークンのis_oovが利用できなくなることを意味しますか? Spacyの上にさまざまな言語モデルで動作するWebサービスを提供したいので、私はこれを求めています。スペーシーモデルタイプおよび利用可能な機能マッピング

答えて

1

"構文"は、すべての関連するすべての言語機能とプロパティを解析します。たとえば、token.dep_,token.head,doc.noun_chunksまたはdoc.sents - 本質的には、依存関係の解析が必要なものすべて(概要はsee this page)です。

「語彙」は、Vocabに最も頻繁に使用される単語があらかじめ入力されていることを意味します。モデルにボキャブが付いていない場合、すべてのトークンは語彙外になり、is_oovの場合はTrueを返します。より大きいモデルは、通常、より大きい語彙と共に出荷される。 smモデルには、最も頻繁に使用される単語の基本語彙が含まれている必要がありますが、一部のデータが現在設定されている方法に問題がある可能性があります。

関連する問題