NLTKで始まり、オランダ語の文章にタグを付けるが、コーパスを指定するのに問題がある。NLTKタグオランダ文
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
from nltk.corpus import alpino
pos_tag(word_tokenize("Python is een goede data science taal."), tagset = 'alpino')
だから明らかに私が正しくコーパスを指定していない午前、
[('Python', 'UNK'),
('is', 'UNK'),
('een', 'UNK'),
('goede', 'UNK'),
('data', 'UNK'),
('science', 'UNK'),
('taal', 'UNK'),
('.', 'UNK')]
を与えます。私はアルピノコーパスをダウンロードしました。コーパスを正しく指定する方法を誰かに教えてもらえますか?
http://stackoverflow.com/questions/14732465/nltk-tagging-spanish-words-using-a-corpusおよびhttps://github.com/alvations/spaghetti-tagger – alvas