2011-02-23 4 views
0

nltkのコーパスにタグを付けるhunposの構文を教えてもらえますか?nltkでhunposを使ってテキストファイルにタグを付けるにはどうしたらいいですか?

  1. 私はhunpos.HunPosTagger module何をインポートしていますか?

  2. どのように私はHunPosをコーパスにタグ付けしますか?以下のコードを参照してください。


import nltk 
from nltk.corpus import PlaintextCorpusReader 
from nltk.corpus.util import LazyCorpusLoader 

corpus_root = './' 
reader = PlaintextCorpusReader (corpus_root, '.*') 

ntuen = LazyCorpusLoader ('ntumultien', PlaintextCorpusReader, reader) 
ntuen.fileids() 
isinstance (ntuen, PlaintextCorpusReader) 


# So how do I hunpos tag `ntuen`? I can't get the following code to work. 
# please help me to correct my python syntax errors, I'm new to python 
# but i really need this to work. sorry 
##from nltk.tag import hunpos.HunPosTagger 
ht = HunPosTagger('english.model') 
for sentence in ntu.sent() ##looping through the no. of sentence 
    ht.tag(ntusent()[i]) 

答えて

4
import nltk 
from nltk.tag.hunpos import HunposTagger 
from nltk.tokenize import word_tokenize 

corpus = "so how do i hunpos tag my ntuen ? i can't get the following code to work." 
#please help me to correct my python syntax errors, i'm new to python 
#but i really need this to work. sorry 
##from nltk.tag import hunpos.HunPosTagger 
ht = HunposTagger('en_wsj.model') 
print ht.tag(word_tokenize(corpus)) 

私は問題のように感じる(それはHunposTagger、ないHunPosTaggerだ)あなたが単語をトークン化していないですが、コードが機能しない場合があり、他の理由があります。私はこの簡単な例をあなたの質問から作りました。それ以上の質問がある場合は、コメントを投稿してください。

私はここからすべてを得た:http://code.google.com/p/hunpos/

のpython hunpos.py

[( 'そう'、 'RB')、( 'どのように'、 'WRB')、( '行います' ''、 '' '' '' '' '' '' '' '' '' '' '') '、' '、' '、' '、' ')、(' '、' ') ''、 ''、 '')、( ''、 ''、 ''、 '') ''、 '。')]

+0

私はそれをnltkにコード化することができました。私は各文を新しい行に分割する必要があります。ありがとう。このコマンドを実行します。ht.tag(file.readline()。split()) – alvas

関連する問題