text2vec
を使用する場合、文字ベクトルとしての列の内容をトークナイザ関数に入力するだけで済みます。下記の例を参照してください。
ダウンストリーム解析に関しては、カウントデータ/整数値でPCAを実行することはお勧めしませんが、PCAはこの種のデータ用に設計されていません。 dtmに正規化、tfidf加重などを適用して、連続データに変換してからPCAに送ってください。そうでなければ、通信解析を適用する必要があります。
# Read Data from file using fread (for .csv from data.table package)
dat <- fread(filename, <add parameters as needed - col.namess, nrow etc>)
counts <- sapply(row_start:row_end, function(z) str_count(dat[z,.(selected_col_name)],"the"))
これはあなたのすべての回出てくる与えるだろう「」選択された行のための興味の欄に:ので、ここでコメントを追加することはできません
library(text2vex)
docs <- c("the coffee is warm",
"the coffee is cold",
"the coffee is hot",
"the coffee is warm",
"the coffee is hot",
"the coffee is perfect")
#Generate document term matrix with text2vec
tokens = docs %>%
word_tokenizer()
it = itoken(tokens
,ids = paste0("sent_", 1:length(docs))
,progressbar = FALSE)
vocab = create_vocabulary(it)
vectorizer = vocab_vectorizer(vocab)
dtm = create_dtm(it, vectorizer, type = "dgTMatrix")