"say say make made"というファイルを含む 'check_text.txt'があります。私はそれを形づくって "make make make say"と言うことをしたいと思います。私はstemDocument
をtm
パッケージに入れようとしましたが、以下のように "make made made say"と言うだけです。過去の緊張した言葉に形づくをする方法はありますか?現実の自然言語処理でそうする必要がありますか?ありがとう!tmパッケージ内のstemDocmentが過去の時制の単語には作用しません
filename = 'check_text.txt'
con <- file(filename, "rb")
text_data <- readLines(con,skipNul = TRUE)
close(con)
text_VS <- VectorSource(text_data)
text_corpus <- VCorpus(text_VS)
text_corpus <- tm_map(text_corpus, stemDocument, language = "english")
as.data.frame(text_corpus)$text
EDIT:私はまた、英語の不規則動詞のデータセットがパッケージ内に存在する場合、このタスクは簡単だろうSnowballC
パッケージに
> library(SnowballC)
> wordStem(c("said", "say", "says", "make", "made"))
[1] "said" "sai" "sai" "make" "made"