Standford NLP(句読点用のPoSを含む)で作成されるPoSラベルのセットとその説明は何ですか?Java用音声ラベルの特定の部分Stanford NLP
私はこの質問は、のように数回、依頼されている知っている:
- Java Stanford NLP: Part of Speech labels?
- http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
- http://www.mathcs.emory.edu/~choi/doc/clear-dependency-2012.pdf
をしかし、それらの答えはをしているいくつかの典型的なのPoSラベルを一覧表示しますスタンドNLPに固有のではありません。たとえば、これらの回答のいずれも(
の句読点にStanford NKLPが使用する-LRB-
PoSラベルを記載していません。
このPoSラベルのリストは、スタンフォードNLPのソースコードでどこにありますか?
さらに、SYM
PoSラベルが付いたトークンの例はありますか?
また、トークンが句読点であるかどうかを知る方法? Hereは、isPunctation == true if its PoS is :|,|.|“|”|-LRB-|-RRB-|HYPH|NFP|SYM|PUNC
を定義します。しかし、スタンフォードNLPにはこれらのPoSがすべてありません。
THX:ここでは、タグの完全なリストがあります。私は公式の医師がPenn TreebankのPOSセットについて言及しており、それがリストのあるページにリンクしていることを知っています:https://nlp.stanford.edu/software/tagger.shtml なお、このリストには、-LRB- POS。だからこそ私はソースコードのどこに実装されているのかを知りたいのです。また、SYM POSのいくつかの例を紹介します。http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html –
タグはコードのどこにでもハードコードされていません。 (それらはシリアライズされたモデルの一部として保存されています)。しかし、私が投稿したリストは完全でなければなりません。(-LRB-と書かれています)は-RRB-として書かれています。 –
thx。私はあなたがコードと著者に非常に精通していることを知っています(またはあなたは著者の中にさえいますか?)。たぶん公式ページにこの情報を追加するように著者に提案することができます:https://nlp.stanford.edu/software/tagger.shtml –