文字列から文字のdfmを作成しようとしています。私は、dfmが選択できないときに、 "/" " - " "のような句読点のための機能を作成することができます。または '。文字のdfmを作成する
"/デD/F" のためにrequire(quanteda)
dict = c('a','b','c','d','e','f','/',".",'-',"'")
dict <- quanteda::dictionary(sapply(dict, list))
x<-c("cab","baa", "a/de-d/f","ad")
x<-sapply(x, function(x) strsplit(x,"")[[1]])
x<-sapply(x, function(x) paste(x, collapse = " "))
mat <- dfm(x, dictionary = dict, valuetype = "regex")
mat <- as.matrix(mat)
mat
- 、私は手紙をキャプチャする "/" " - " あまりに
- なぜ "を"。行数として機能する機能どうすれば個々の機能として保持できますか?
「tokens < - tokenize(x、what = "character")」と似ています。 mat < - dfm(トークン、辞書= dict、valueetype = "固定") '?正規表現( "正規表現")では、 '.'は任意の文字を表します。 – lukeA
ありがとうございます。これはまさに私が探していたものです。 – SuperSatya