1
ドキュメント内のすべてのバイグラムのテーブルを作成するために既存のコードが使用されていますが、アポストロフィが削除されています。 「I've」のような単語を単一の単語として扱うためにこのコードを調整するにはどうすればよいですか?例えばRでバイグラムを作成するときにアポストロフィを保持する方法は?
text1 = scan(file.choose(), what="character",sep="\n")
text1 <- tolower(text1)
tokens <- unlist(strsplit(text1, "[^a-z]+"))
tokens <- mytable[tokens != ""]
tokens2 <- c(tokens[-1], ".")
bigrams <- paste(tokens, tokens2)
freq <- sort(table(bigrams), decreasing=T)
write.csv(file = "bigram count.csv" , x=freq, row.names = FALSE)
、「私は楽しみを持っていた」という表現は、出力は「私は持っていた」だろうと「楽しい時間を過ごした」