私は非常に単純なパーサを使ってWSJコーパスからいくつかのタグ付き文をチャンクすることになっています。私は自分自身で文章にタグを付けますが、タグ付きの文章を得るために与えられた方法を使用してはいけません。1つのタグのセットが解析されないのはなぜですか?
私の割り当てでは、WSJコーパスnltk.corpus.treebank.tagged_sents()のタグ200-220を使用するように指示されました。私のパーサーは私にエラーを与えています。まさにそれを与える秒1であるのはなぜ
tag2 = nltk.corpus.treebank.tagged_sents()[200:220]
print(cp.parse(tag2))
>>> ValueError: chunk structures must contain tagged tokens or trees
:動作しません。自分のコードを使用して
tbss = concat(treebank.sents()[200:220])
tag1 = nltk.pos_tag(tbss)
print(cp.parse(tag1))
:
(手動を作品の文章をタグ付け)作品私のコードエラー?私はタグ1とタグ2の両方のプリントを行い、それらはほぼ同じように見えます...なぜ、1つのパースと他のパージがありません...何か間違っていますか?
構造体が印刷されない可能性があります。オブジェクトの 'repr(...)'を見たり、解凍したり、部分構造を個別に調べたりしてください。また、例外投げオブジェクトが特定のメソッドを逃している可能性がありますので、必要なインターフェイスを提供するために何らかの方法でラップする必要があります。 – lenz
また、最初のケースでは、デフォルトのPOSタグを適用しています(私はこれを "手動で"、btwと呼ぶことはありません)、まず文を連結して、おそらく単一のタグ付きシーケンスを取得します。私は2番目のケースでそれが起こっているとは思わないので、おそらく複数のタグ付きシーケンス(すべてのセンテンスごとに1つ)があります。 – lenz