2017-11-10 14 views
1

SpacyV1では、文書とBILOU形式のエンティティ注釈のリストを提供することでNERモデルを訓練することができました。Spacy 2.0 NER Training

V2トレーニングでは、このようなエンティティアノテーション(7,13、 'LOC')を提供することによってのみ可能であるように見えます。エンティティオフセットとエンティティタグを使用します。

トークンのリストを提供する古い方法とBILOU形式のエンティティタグの別のリストは有効ですか?

ドキュメントから収集したところから、nlp.updateメソッドがGoldParseオブジェクトのリストを受け入れるので、各ドキュメントのGoldParseオブジェクトを作成し、BILOUタグをエンティティ属性に渡すことができました。しかし、GoldParseクラスの他の属性(例えば、頭やタグhttps://spacy.io/api/goldparse)を無視して重要な情報を失うか、NERを訓練するために必要とされない他の属性ですか?

ありがとうございます!

答えて

2

はい、まだGoldParse個のオブジェクトをBILUOタグで作成できます。使用例が "より単純な"オフセット形式を示す主な理由は、読みやすく理解しやすいということです。

NERをトレーニングしたい場合は、nlp.disable_pipes() context managerを使用して、トレーニング中に他のすべてのパイプラインコンポーネント(例:'tagger'および)を無効にすることもできます。ブロックの後に、コンポーネントが復元されるので、モデルを保存すると、パイプライン全体が含まれます。これはNER training examplesで実際に見ることができます。

0

どのようにしてGoldParseオブジェクトを使用してトレーニングできますか?私はしばらくの間試していますが、私は理解できませんでした。

+0

既にできました!私はBILOUタグ(U、O、I、B、L)でラベルを追加していました。 – melalonso

関連する問題