2011-11-20 21 views
6

NLTKのチャンクパーサーの正規表現は、POSタグと一致することができますが、特定の単語にも一致しますか?
したがって、名詞の後に動詞 "left"が続く構造体をチャンクしたいとします(このパターンをLと呼びます)。例えば、「\ DT dog \ NN left \ VB」という文章は、
(S(DT the)(L(NN dog)(VB left)))のようにチャンクされるべきですが、 NN slept \ VB "は全くチャンクされません。NLTKのチャンクパーサーと一致する単語

チャンク正規表現の構文でドキュメントを見つけることができず、私が見た例はすべてPOSタグと一致しています。

答えて

1

私は同様の問題を抱えていたし、正規表現パターンはタグのみを検討することを認識した後、私は私が興味を持った作品にタグを変更しました。

たとえば、私は製品名とバージョンに一致するようにしようとしていました"Internet Explorer 8.0"では\ NNP + \ CDのようなチャンクルールを使用していましたが、NNPとしてSP2にタグ付けした "Internet Explorer 8.0 SP2"では失敗しました。

おそらく私はPOSタガーを訓練していたかもしれませんが、代わりにSPにタグを変更することを決めた後、\ NNP + \ CD \ SP *のようなチャンクルールはどちらの例とも一致します。

+0

あなたはの線に沿って一例を提供することができます: chunkGram = R "" "チャンク:{? * * + }" "" – ProfVersaggi

関連する問題