.propファイルに従って、ラベル付き入力ファイルに基づいてモデルを訓練する際には、http://nlp.stanford.edu/software/crf-faq.shtml#aの詳細な説明を読みました。しかしstanfordnlp - スタンフォードNERモデル生成への単一のトークンとして空間分離単語を訓練する
You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.
says-記事は、私のテキストコーパスは、すべての兼用トークンの代わりに、単一の単語を形成しているいくつかのスペースで区切られた単語を持っています。たとえば、Wright、State and Universityは個別にエンティティですが、 "Wright State University"は単一のトークンです。私は単一のものとして上記のトークンを持つモデルを生成したいと思います。この記事では、モデルを生成する入力ファイルは、最初の列がトークンで、2番目の列がラベルであるタブ区切りの単語として指定する必要があります。どうすればこれを達成できますか?