2017-06-26 7 views
0

Standford NLP(句読点用のPoSを含む)で作成されるPoSラベルのセットとその説明は何ですか?Java用音声ラベルの特定の部分Stanford NLP

私はこの質問は、のように数回、依頼されている知っている:

をしかし、それらの答えはをしているいくつかの典型的なのPoSラベルを一覧表示しますスタンドNLPに固有のではありません。たとえば、これらの回答のいずれも(の句読点にStanford NKLPが使用する-LRB- PoSラベルを記載していません。

このPoSラベルのリストは、スタンフォードNLPのソースコードでどこにありますか?

さらに、SYM PoSラベルが付いたトークンの例はありますか?

また、トークンが句読点であるかどうかを知る方法? Hereは、isPunctation == true if its PoS is :|,|.|“|”|-LRB-|-RRB-|HYPH|NFP|SYM|PUNCを定義します。しかし、スタンフォードNLPにはこれらのPoSがすべてありません。

答えて

0

これはPenn Treebank POSセットですが、このタグセットの多くの記述では句読点が省略されているようです。

https://www.eecis.udel.edu/~vijay/cis889/ie/pos-set.pdf

(しかし、彼らは文書でこれを言及していない理由は、括弧が-LRB-と-RRB-、わからないとしてタグ付けされている。)

+0

THX:ここでは、タグの完全なリストがあります。私は公式の医師がPenn TreebankのPOSセットについて言及しており、それがリストのあるページにリンクしていることを知っています:https://nlp.stanford.edu/software/tagger.shtml なお、このリストには、-LRB- POS。だからこそ私はソースコードのどこに実装されているのかを知りたいのです。また、SYM POSのいくつかの例を紹介します。http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html –

+0

タグはコードのどこにでもハードコードされていません。 (それらはシリアライズされたモデルの一部として保存されています)。しかし、私が投稿したリストは完全でなければなりません。(-LRB-と書かれています)は-RRB-として書かれています。 –

+0

thx。私はあなたがコードと著者に非常に精通していることを知っています(またはあなたは著者の中にさえいますか?)。たぶん公式ページにこの情報を追加するように著者に提案することができます:https://nlp.stanford.edu/software/tagger.shtml –

関連する問題