2017-08-25 3 views
2

Sense2Vecの背後には、paperのアイデアがありますが、最初に作成された標準のspaCyモデルはどのようになっていますか?標準の「en_core_web_md」モデルのようなものをthe selection of modelsからダウンロードすると、実際にどのように作成されましたか?私が読むことができるか、ブログに投稿された論文はありますか?spaCyは実際にどのNNモデルを実装していますか?メモリ内のサイズを決めるのは何ですか?

ボーナス質問:

どのサイズで開催spaCy 2.0の新機種そんなに小さいですか? version 2 Release summaryから

このリリースには、スペイシーの鬼、パーサおよびエンティティ認識のための全く新しい深い学習搭載のモデルを提供しています。新しいモデルは、今までパワーを持っていた線形モデルよりも20倍小さい:300MBからわずか15MBまで。

この方向に進む唯一の参考資料は、リリース概要のhereです。 すべてのモデルのメモリフットプリントのサマリーはhereです。

モデルの重量は提供されていますが、関連する属性を実際に取得するたびにと計算されます。はオンザフライですか?これは、ベンチマークで示されるスループットが遅いことを説明しますthis page

答えて

2

モデルgithub repo https://github.com/explosion/spacy-models/releasesのリリースを見ると、モデルの各部分に詳細があります。タグ付けやパーサ、それは上で訓練されたどのようなデータを伝えるとどのような結果のモデルの精度は、次のとおりです。

パーサ:OntoNotes 5、91.5%の精度

タガー:OntoNotes 5、96.9パーセントの精度

NER:OntoNotes 5、84.7パーセントの精度

単語ベクトル:一般的なクロール

モデルのトレーニングに必要なコードの詳細については、http://spacy.io/docs/usage/trainingをご覧ください。上にリンクされているリリースにもソースコードが添付されていますが、どのコードであるかは確認していません。


編集:

discussion following the announcement of v2.0て読んだ後、私は新しいNNモデルが内部でどのように動作するかを説明し問題に出くわしました。

あなたはここでそれを見つけることができます:https://github.com/explosion/spaCy/issues/1057

+0

グレート、ありがとう - 私が探していたあなたの編集用品、ほとんどの情報を! –

関連する問題