2016-09-18 7 views
1

.propファイルに従って、ラベル付き入力ファイルに基づいてモデルを訓練する際には、http://nlp.stanford.edu/software/crf-faq.shtml#aの詳細な説明を読みました。しかしstanfordnlp - スタンフォードNERモデル生成への単一のトークンとして空間分離単語を訓練する

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems. 

says-記事は、私のテキストコーパスは、すべての兼用トークンの代わりに、単一の単語を形成しているいくつかのスペースで区切られた単語を持っています。たとえば、Wright、State and Universityは個別にエンティティですが、 "Wright State University"は単一のトークンです。私は単一のものとして上記のトークンを持つモデルを生成したいと思います。この記事では、モデルを生成する入力ファイルは、最初の列がトークンで、2番目の列がラベルであるタブ区切りの単語として指定する必要があります。どうすればこれを達成できますか?

答えて

0

通常、NERトレーニングデータは、各トークンがNERタグを持つ自然言語文の形式です。 1万文以上あるかもしれません。

例:「彼はライト州立大学に通った」文章を持っている、とあなたは、単に特定の方法をタグ付けする必要がある文字列のリストを持っていない場合、それはRegexNERを使用する方が理にかなって

He O 
attended O 
Wright SCHOOL 
State SCHOOL 
University SCHOOL 
. O 

はとして表現されなければなりません。

http://nlp.stanford.edu/software/regexner.html

あなたはここにRegexNERを使用する方法の完全な説明を見つけることができます

関連する問題