私はRで持っているリストから単一の単語/トークンのPOSタグを作成する方法を探しています。私は単一のトークンに対して行うと精度が低下することを知っています文章の代わりに、私が持っているデータはWikipediaから「編集を削除する」ものであり、人々は主に全文の代わりに単一の未結合語を削除します。私はこの質問をPythonのために数回見ましたが、私はまだRのための解決策を見つけていません。Rで単語/トークンのPOSタグを作成する
私のデータはsomehwatこの
Tokens <- list(c("1976","green","Normandy","coast","[", "[", "template" "]","]","Fish","visting","England","?"))
、理想的には次のようになります、私はこのような何かを持っていると思いますが、返さ:
1976 CD
green JJ
Normandy NN
coast NN
[ x
[ x
template NN
] x
] x
Fish NN
visiting VBG
England NN
? x
を私はいくつかのwebsitesがそのオンラインをやったが、私は、彼らことを疑いますRの中の何かを実行しています。彼らはまた、単一の単語/トークンでそれを使用しないことを明確に述べています。
私の質問:これをRで妥当な精度で行うことは可能ですか?どのようにコードが文章構造を組み込んでいないように見えるでしょうか?リストを巨大なタグ付きの日記と比較するのは簡単でしょうか?
上記の答えはspacy 1.0にのみ適用されます。 新しい方法については、spacy 2.0ドキュメントを参照してください。 –